Tengo un modelo de regresión en el que la variable dependiente es continua, pero el 90% de las variables independientes son categóricas (ordenadas y desordenadas) y alrededor del 30% de los registros tienen valores faltantes (empeorar las cosas, faltan aleatoriamente sin ningún patrón, es decir, más del cuarenta y cinco por ciento de los datos tienen al menos un valor faltante). No existe una teoría a priori para elegir la especificación del modelo, por lo que una de las tareas clave es la reducción de dimensiones antes de ejecutar la regresión. Si bien conozco varios métodos para la reducción de dimensiones para variables continuas, no conozco una literatura estadística similar para datos categóricos (excepto, tal vez, como parte del análisis de correspondencia que es básicamente una variación del análisis de componentes principales en la tabla de frecuencias). Permítanme también agregar que el conjunto de datos es de tamaño moderado 500000 observaciones con 200 variables. Tengo dos preguntas.Reducción de dimensiones en datos categóricos con valores faltantes
- ¿Hay una buena referencia estadística que hay para reducción de dimensiones para los datos categóricos, junto con la imputación robusta (creo que el primer número es la imputación y luego reducción de la dimensión)?
- Esto está relacionado con la implementación del problema anterior. He usado R extensivamente antes y tiendo a utilizar la función de transcan y imputar en gran medida para variables continuas y uso una variación del método de árbol para imputar valores categóricos. Tengo un conocimiento práctico de Python, así que si hay algo bueno para este propósito, entonces lo usaré. Cualquier puntero de implementación en python o R será de gran ayuda. Gracias.
Gracias. Esto es realmente útil. – user227290
Hola, el enlace a la presentación no se encuentra ahora. –