Estoy tratando de utilizar el paquete de bosques al azar para la clasificación en R.R Random Forests Importancia de la variable
Las medidas de importancia variable que figuran son:
- significa puntuación de importancia prima de la variable x para la clase 0
- media puntaje bruto importancia de la variable x para la clase 1
MeanDecreaseAccuracy
MeanDecreaseGini
Ahora sé lo que estos "significan", ya que conozco sus definiciones. Lo que quiero saber es cómo usarlos.
Lo que realmente quiero saber es lo que significan estos valores sólo en el contexto de cómo es exacto que son, lo que es un buen valor, lo que es un mal valor, ¿cuáles son los máximos y mínimos, etc.
Si una variable tiene un alto MeanDecreaseAccuracy
o MeanDecreaseGini
, ¿significa eso que es importante o no? También cualquier información sobre puntajes brutos podría ser útil también. Quiero saber todo lo que hay que saber sobre estos números que es relevante para la aplicación de ellos.
Una explicación que usa las palabras "error", "suma" o "permutada" sería menos útil que una explicación más simple que no implique ninguna discusión sobre cómo funcionan los bosques aleatorios.
Como si quisiera que alguien me explique cómo usar una radio, no esperaría que la explicación implique cómo una radio convierte las ondas de radio en sonido.
Incluya el enlace a la definición de Gini que se usa realmente para la división de nodos: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity – tashuhka