He estado leyendo sobre Árboles de decisión y Validación cruzada, y entiendo ambos conceptos. Sin embargo, tengo problemas para entender la validación cruzada en lo que respecta a los árboles de decisión. Básicamente, la validación cruzada le permite alternar entre capacitación y prueba cuando su conjunto de datos es relativamente pequeño para maximizar su estimación de errores. Una muy simple algoritmo es algo como esto:Ayuda Comprensión de validación cruzada y árboles de decisión
- decidir sobre el número de pliegues que desee (k)
- subdividir el conjunto de datos en k se pliega
- Use pliegues K-1 para un conjunto de entrenamiento para construir una árbol.
- Utilice el conjunto de prueba para estimar las estadísticas sobre el error en su árbol.
- Guarde sus resultados para más tarde
- Repita los pasos 3-6 para k veces, dejando un doblez diferente para su conjunto de prueba.
- media de los errores a través de sus iteraciones para predecir el error global
El problema que no puedo entender es al final tendrá k árboles de decisión que podrían ser todos un poco diferente, ya que podría no dividir de la misma manera, etc. ¿Qué árbol eliges? Una idea que tuve fue escoger la que tenía errores mínimos (aunque eso no lo hace óptimo solo porque funcionó mejor en el doblez que se le dio). Tal vez usar estratificación ayudará pero todo lo que he leído dice que solo ayuda un poco.)
Como entiendo la validación cruzada, el punto es calcular en estadísticas de nodos que luego pueden usarse para podar. Entonces, realmente, cada nodo del árbol tendrá estadísticas calculadas para él en función del conjunto de pruebas que se le haya asignado. Lo importante es esto en las estadísticas de nodo, pero si promedia su error. ¿Cómo fusiona estas estadísticas dentro de cada nodo en k árboles cuando cada árbol puede variar en lo que eligen dividir, etc.
¿Cuál es el punto de calcular el error general en cada iteración? Eso no es algo que pueda usarse durante la poda.
Cualquier ayuda con esta pequeña arruga sería muy apreciada.
Bien, si pienso en lo que esto podría significar es que podría comparar diferentes tipos de clasificadores (Árbol de decisiones vs. SVM) dado un conjunto de datos y decir cuál sería más probable que prediga correctamente. Creo que la validación cruzada realmente no tiene nada que ver con la poda o las estadísticas usadas para podar. ¿Es suficiente tener un conjunto de entrenamiento utilizado para construir el árbol y otro conjunto para realizar la poda (es decir, el conjunto de prueba)? La mayoría de los datos de UCI vienen con juegos de entrenamiento y pruebas por separado, así que es por eso que pregunto. – chubbsondubs