Tengo un dataset de clase binario (0/1) con una gran inclinación hacia la clase "0" (aproximadamente 30000 vs 1500). Hay 7 funciones para cada instancia, no hay valores perdidos.¿Cómo se sobreutilizan deliberadamente los clasificadores de árboles Weka?
Cuando uso el J48 o cualquier otro clasificador de árbol, obtengo casi todas las instancias "1" mal clasificadas como "0".
Configurando el clasificador a "sin podar", estableciendo el número mínimo de instancias por hoja en 1, estableciendo el factor de confianza en 1, agregando un atributo ficticio con número de ID de instancia - todo esto no ayudó.
¡No puedo crear un modelo que sobrepase mis datos!
También probé casi todos los otros clasificadores que Weka proporciona, pero obtuve resultados similares.
El uso de IB1 obtiene el 100% de precisión (trainset en el tren) por lo que no es un problema de varias instancias con los mismos valores de características y diferentes clases.
¿Cómo puedo crear un árbol completamente sin podar? ¿O forzar a Weka a sobreajustar mis datos?
Gracias.
Actualización: De acuerdo, esto es absurdo. He usado sólo alrededor de 3100 y 1200 negativos ejemplos positivos, y este es el árbol llegué (sin podar!):
J48 unpruned tree
------------------
F <= 0.90747: 1 (201.0/54.0)
F > 0.90747: 0 (4153.0/1062.0)
Ni que decir tiene, IB1 todavía da el 100% de precisión.
Actualización 2: No sé cómo lo eché de menos - sin podar SimpleCart funciona y le da el 100% de precisión en el tren en tren; Poda SimpleCart no está tan sesgada como J48 y tiene un índice decente positivo y negativo decente.
posible pregunta relacionada: http://stackoverflow.com/ preguntas/2519997/diferentes-pesos-de-falso-positivo-y-falso-negativo-en-red-neuronal – Amro