Actualmente estoy lidiando con un problema de aprendizaje automático mientras que tengo que lidiar con grandes conjuntos de datos desequilibrados. Es decir, hay seis clases ('1', '2' ... '6'). Lamentablemente, hay, por ejemplo, para la clase '1' 150 ejemplos/instancias, para '2' 90 instancias y para la clase '3' solamente 20. Todas las otras clases no pueden ser "entrenadas" ya que no hay instancias disponibles para estas clases.Volver a muestrear Filtro de WEKA - Cómo interpretar el resultado
Hasta ahora, descubrí que WEKA (el kit de herramientas de aprendizaje automático que estoy usando) proporciona este filtro supervisado de "remuestreo". Cuando aplico este filtro con 'noReplacement' = false y 'bialToUniformClass' = 1.0, esto da como resultado un conjunto de datos, donde el número de instancias es agradable y casi igual (para la clase '1' ... '3' y las demás mantente vacío).
Mi pregunta es ahora: ¿cómo WEKA y este filtro generan instancias "nuevas"/adicionales para diferentes clases.
Muchas gracias de antemano por cualquier pista o sugerencia.
Saludos Julian