¿Se ha realizado alguna investigación en el campo de la minería de datos con respecto a la clasificación de datos que tiene una relación de uno a varios?¿Hay algún algoritmo de clasificación que oriente los datos con una relación uno a muchos (1: n)?
Por ejemplo, de un problema como este, digamos que estoy tratando de predecir qué estudiantes van a abandonar la universidad en función de sus calificaciones de clase y su información personal. Obviamente, existe una relación de uno a muchos entre la información personal de los estudiantes y las calificaciones que lograron en sus clases.
enfoques obvios incluyen:
agregado - Los múltiples registros podría agregarse juntas para reducir el problema a un problema de clasificación básica de alguna manera. En el caso de la clasificación de estudiantes, el promedio de sus calificaciones podría combinarse con sus datos personales. Si bien esta solución es simple, a menudo se pierde información clave. Por ejemplo, ¿qué pasa si la mayoría de los estudiantes que toman química orgánica y obtienen un C por debajo terminan abandonando, incluso si su promedio está por encima de una calificación B +.
Votación - Cree clasificadores múltiples (a menudo débiles) y haga que emitan votos para determinar la clase general de los datos en cuestión. Esto sería como si se hubieran construido dos clasificadores, uno para los datos del curso del alumno y otro para sus datos personales. Cada registro del curso se pasará al clasificador del curso y, en función del grado y el nombre del curso, el clasificador predeciría si el alumno abandonará el uso del registro del curso solo. El registro de datos personales se clasificaría utilizando el clasificador de datos personales. Entonces todas las predicciones de registros de clase junto con la predicción del registro de información personal se votarían juntas. Esta votación se puede hacer de diferentes maneras, pero lo más probable es que tome en cuenta qué tan precisos son los clasificadores y cuán seguro era el clasificador del voto. Claramente, este esquema permite patrones de clasificación más complicados que la agregación, sin embargo, hay una gran complejidad adicional involucrada. Además, si la votación no se realiza bien, la precisión puede sufrir fácilmente.
Así que estoy buscando otras posibles soluciones para la clasificación de datos con una relación uno a muchos.
Hola @Nixuz estoy enfrentando la misma situación con mi proyecto, ¿qué opción eligió? –