9

Hay tres maneras de medir la impureza:árbol de decisiones de aprendizaje y la impureza

Entropy

Gini Index

Classification Error

¿Cuáles son las diferencias y los casos de uso apropiadas para cada método?

+1

Impureza de qué? – Davidann

+2

@David: mira aquí: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity y aquí: http://people.revoledu.com/kardi/tutorial/DecisionTree/how-to-measure-impurity.htm –

Respuesta

5

Si la década de P_i son muy pequeña, a continuación, haciendo la multiplicación de muy pequeñas números (índice de Gini) puede llevar a errores de redondeo. Por eso, es mejor agregar los registros (Entropy). El error de clasificación, siguiendo su definición, proporciona una estimación bruta ya que utiliza el mayor p_i para calcular su valor.

+0

No puedo ver cómo tendrías esos problemas al dividir un nodo ... Los clasificadores de bosque aleatorio usan impurezas de Gini y se ha informado que tienen mayor precisión que la mayoría de los otros clasificadores basados ​​en árboles. – Benjamin

+2

@Benjamin: no veo nada en la pregunta que sea específica para dividir un nodo. – Davidann

2

Encontré this description of impurity measures para ser bastante útil. A menos que esté implementando desde cero, la mayoría de las implementaciones existentes usan una única medida de impureza predeterminada. Tenga en cuenta también que el índice de Gini no es una medida directa de las impurezas, no en su formulación original, y que hay muchas más de las enumeradas anteriormente.

No estoy seguro de entender la preocupación sobre los números pequeños y la medida de impureza de Gini ... No puedo imaginarme cómo ocurriría esto al dividir un nodo.

0

He visto varios esfuerzos en la orientación informal en este sentido, que van desde "si utiliza una de las métricas habituales, no habrá mucha diferencia", hasta recomendaciones mucho más específicas. En realidad, la única forma de saber con certeza qué medida funciona mejor es probar todos los candidatos.

De todos modos, aquí es un poco de perspectiva de los sistemas de Salford (del vendedor CART):

Do Splitting Rules Really Matter?

3

La diferencia entre la entropía y otras medidas de impureza, y de hecho a menudo la diferencia entre la información enfoques teóricos en el aprendizaje automático y otros enfoques, es que se ha demostrado matemáticamente que la entropía captura el concepto de "información". Hay muchos teoremas de clasificación (teoremas que prueban que una función particular u objeto matemático es el único objeto que satisface un conjunto de criterios) para medidas de entropía que formalizan argumentos filosóficos que justifican su significado como medidas de "información".

Contraste esto con otros enfoques (especialmente métodos estadísticos) que se eligen no por su justificación filosófica, sino principalmente por su justificación empírica, es decir, parecen funcionar bien en los experimentos. La razón por la que funcionan bien es porque contienen suposiciones adicionales que pueden suceder en el momento del experimento.

En términos prácticos, esto significa que las medidas de entropía (A) no pueden sobrepasarse cuando se utilizan correctamente, ya que están exentas de suposiciones sobre los datos, (B) tienen mejor rendimiento que aleatorio porque se generalizan a cualquier conjunto de datos pero (C) el rendimiento para conjuntos de datos específicos puede no ser tan bueno como las medidas que adoptan suposiciones.

Al decidir qué medidas usar en el aprendizaje automático, a menudo se reduce a ganancias a largo plazo frente a ganancias a corto plazo y facilidad de mantenimiento. Las medidas de entropía a menudo funcionan a largo plazo por (A) y (B), y si algo sale mal es más fácil rastrear y explicar por qué (por ejemplo, un error al obtener los datos de entrenamiento).Otros enfoques, por (C), pueden dar ganancias a corto plazo, pero si dejan de funcionar puede ser muy difícil distinguir, digamos un error en la infraestructura con un cambio real en los datos donde las suposiciones ya no se sostienen.

Un ejemplo clásico donde los modelos de repente dejaron de funcionar es la crisis financiera mundial. Los banqueros recibían bonos por ganancias a corto plazo, por lo que escribieron modelos estadísticos que funcionarían bien a corto plazo y en gran medida ignoraron los modelos teóricos de información.

Cuestiones relacionadas