2009-04-10 25 views
42

Estoy tratando de utilizar el paquete de bosques al azar para la clasificación en R.R Random Forests Importancia de la variable

Las medidas de importancia variable que figuran son:

  • significa puntuación de importancia prima de la variable x para la clase 0
  • media puntaje bruto importancia de la variable x para la clase 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

Ahora sé lo que estos "significan", ya que conozco sus definiciones. Lo que quiero saber es cómo usarlos.

Lo que realmente quiero saber es lo que significan estos valores sólo en el contexto de cómo es exacto que son, lo que es un buen valor, lo que es un mal valor, ¿cuáles son los máximos y mínimos, etc.

Si una variable tiene un alto MeanDecreaseAccuracy o MeanDecreaseGini, ¿significa eso que es importante o no? También cualquier información sobre puntajes brutos podría ser útil también. Quiero saber todo lo que hay que saber sobre estos números que es relevante para la aplicación de ellos.

Una explicación que usa las palabras "error", "suma" o "permutada" sería menos útil que una explicación más simple que no implique ninguna discusión sobre cómo funcionan los bosques aleatorios.

Como si quisiera que alguien me explique cómo usar una radio, no esperaría que la explicación implique cómo una radio convierte las ondas de radio en sonido.

Respuesta

24

Una explicación que utiliza las palabras 'error', 'suma' o 'permutado' sería menos útil a continuación, una explicación más simple que no impliquen discusión de cómo los bosques al azar funciona.

Como si quisiera que alguien me explique cómo usar una radio, no quisiera espero que la explicación implique cómo una radio convierte las ondas de radio en sonido.

¿Cómo explicaría qué significan los números en WKRP 100.5 FM sin entrar en los molestos detalles técnicos de las frecuencias de onda? Francamente, los parámetros y los problemas de rendimiento relacionados con Random Forests son difíciles de entender incluso si comprende algunos términos técnicos.

Aquí está mi tiro en algunas respuestas:

-mean puntaje bruto importancia de la variable x para la clase 0

-mean puntaje bruto importancia de la variable x para la clase 1

Simplificando de Random Forest web page, el puntaje de importancia bruta mide cuánto más útil que una variable predictora particular es al azar para clasificar los datos con éxito.

-MeanDecreaseAccuracy

creo que esto es sólo en el R module, y creo que mide la cantidad de inclusión de este predictor en el modelo reduce el error de clasificación.

-MeanDecreaseGini

Gini se define como "la desigualdad" cuando se usa en la descripción de la distribución de una sociedad de ingresos, o una medida de "impureza nodo" en la clasificación basada en árbol. Un Gini bajo (es decir, un mayor descenso en Gini) significa que una variable de predicción particular juega un papel más importante en la partición de los datos en las clases definidas. Es difícil describirlo sin hablar del hecho de que los datos en los árboles de clasificación se dividen en nodos individuales en función de los valores de los predictores. No tengo muy claro cómo esto se traduce en un mejor rendimiento.

+2

Incluya el enlace a la definición de Gini que se usa realmente para la división de nodos: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity – tashuhka

20

Para su preocupación inmediata: valores más altos significan que las variables son más importantes. Esto debería ser cierto para todas las medidas que menciona.

Los bosques aleatorios le dan modelos bastante complejos, por lo que puede ser complicado interpretar las medidas de importancia. Si quiere entender fácilmente qué están haciendo sus variables, no use RF. Use modelos lineales o un árbol de decisión (no conjunto) en su lugar.

Usted dijo:

Una explicación que utiliza las palabras 'error', 'suma', o 'permutado' sería menos útil a continuación, un simple explicación de que no se trataba de ninguna discusión de cómo funcionan los bosques aleatorios .

Va a ser terriblemente difícil explicar mucho más que lo anterior a menos que investigue y aprenda sobre los bosques aleatorios. Asumo que te quejas, ya sea manual o la sección del manual del Breiman:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

de averiguar la importancia de una variable es, lo llenan de basura al azar ("permutar"), entonces ver cuánto disminuye la precisión predictiva. MeanDecreaseAccuracy y MeanDecreaseGini funcionan de esta manera. No estoy seguro de cuáles son los puntajes de importancia sin procesar.

5

La interpretación es un poco difícil con Random Forests. Si bien RF es un clasificador extremadamente robusto, hace sus predicciones de forma democrática. Con esto quiero decir que construyes cientos o miles de árboles tomando un subconjunto aleatorio de tus variables y un subconjunto aleatorio de tus datos y construyes un árbol. Luego haga una predicción para todos los datos no seleccionados y guarde la predicción. Es robusto porque se adapta bien a los caprichos de su conjunto de datos (es decir, suaviza los valores altos/bajos al azar, parcelas/muestras fortuitas, midiendo lo mismo de 4 maneras diferentes, etc.). Sin embargo, si tiene algunas variables altamente correlacionadas, ambas pueden parecer importantes, ya que no siempre están incluidas en cada modelo.

Un enfoque potencial con bosques aleatorios puede ser ayudar a reducir sus predictores, luego cambiar a CART regular o probar el paquete PARTY para modelos de árbol basados ​​en inferencia. Sin embargo, debe tener cuidado con los problemas de minería de datos y hacer inferencias sobre los parámetros.