¿Por qué el algoritmo C4.5 usa la poda para reducir el árbol de decisión y cómo la poda afecta la precisión de la predicción?

He buscado en google sobre este tema y no puedo encontrar algo que explique este algoritmo de una manera simple pero detallada.¿Por qué el algoritmo C4.5 usa la poda para reducir el árbol de decisión y cómo la poda afecta la precisión de la predicción?

Por ejemplo, sé que el algoritmo id3 no utiliza la poda en absoluto, por lo que si tiene una característica continua, las tasas de éxito de predicción serán muy bajas.

Entonces, el C4.5 para soportar características continuas usa la poda, pero ¿es esta la única razón?

También no puedo entender en la aplicación WEKA, cómo exactamente el factor de confianza afecta la eficiencia de las predicciones. Cuanto menor sea el factor de confianza, más poda hará el algoritmo, sin embargo, ¿cuál es la correlación entre la poda y la precisión de la predicción? Cuanto más podes, mejores son las predicciones o peor?

Gracias

Fuente

2012-06-02 ksm001

La poda es una forma de reducir el tamaño del árbol de decisión. Esto reducirá la precisión de los datos de entrenamiento, pero (en general) aumentará la precisión de los datos no vistos. Se usa para mitigar overfitting, donde se lograría una precisión perfecta en los datos de entrenamiento, pero el modelo (es decir, el árbol de decisiones) que se aprende es tan específico que no se aplica a nada más que a los datos de entrenamiento.

En general, si aumenta la poda, la precisión en el conjunto de entrenamiento será menor. Sin embargo, WEKA ofrece varias cosas para estimar mejor la precisión, es decir, entrenamiento/prueba dividida o validación cruzada. Si usa la validación cruzada, por ejemplo, descubrirá un "punto óptimo" del factor de confianza de poda en algún lugar donde se poda lo suficiente para hacer que el árbol de decisión aprendido sea lo suficientemente preciso en los datos de prueba, pero no sacrifica demasiada precisión en el datos de entrenamiento. Sin embargo, donde yace este punto dulce dependerá de su problema real y la única manera de determinarlo de manera confiable es intentarlo.

Fuente

2012-06-02 22:39:37

¿Por qué el algoritmo C4.5 usa la poda para reducir el árbol de decisión y cómo la poda afecta la precisión de la predicción?

Respuesta

Cuestiones relacionadas