2010-05-14 19 views
18

Tengo un modelo de regresión en el que la variable dependiente es continua, pero el 90% de las variables independientes son categóricas (ordenadas y desordenadas) y alrededor del 30% de los registros tienen valores faltantes (empeorar las cosas, faltan aleatoriamente sin ningún patrón, es decir, más del cuarenta y cinco por ciento de los datos tienen al menos un valor faltante). No existe una teoría a priori para elegir la especificación del modelo, por lo que una de las tareas clave es la reducción de dimensiones antes de ejecutar la regresión. Si bien conozco varios métodos para la reducción de dimensiones para variables continuas, no conozco una literatura estadística similar para datos categóricos (excepto, tal vez, como parte del análisis de correspondencia que es básicamente una variación del análisis de componentes principales en la tabla de frecuencias). Permítanme también agregar que el conjunto de datos es de tamaño moderado 500000 observaciones con 200 variables. Tengo dos preguntas.Reducción de dimensiones en datos categóricos con valores faltantes

  1. ¿Hay una buena referencia estadística que hay para reducción de dimensiones para los datos categóricos, junto con la imputación robusta (creo que el primer número es la imputación y luego reducción de la dimensión)?
  2. Esto está relacionado con la implementación del problema anterior. He usado R extensivamente antes y tiendo a utilizar la función de transcan y imputar en gran medida para variables continuas y uso una variación del método de árbol para imputar valores categóricos. Tengo un conocimiento práctico de Python, así que si hay algo bueno para este propósito, entonces lo usaré. Cualquier puntero de implementación en python o R será de gran ayuda. Gracias.

Respuesta

16

En cuanto a la imputación de datos categóricos, le sugiero que compruebe el paquete mice. También eche un vistazo a este presentation que explica cómo imputa datos categóricos multivariantes. Otro paquete para la imputación múltiple de datos multivariados incompletos es Amelia. Amelia incluye una capacidad limitada para tratar con variables ordinales y nominales.

En cuanto a la reducción de dimensionalidad para datos categóricos (es decir, una forma de organizar variables en clústeres homogéneos), sugeriría el método de Multiple Correspondence Analysis que le dará las variables latentes que maximizan la homogeneidad de los clústeres. De forma similar a lo que se hace en Análisis de Componentes Principales (PCA) y Análisis Factorial, la solución MCA también se puede rotar para aumentar la simplicidad de los componentes. La idea detrás de una rotación es encontrar subconjuntos de variables que coincidan más claramente con los componentes rotados. Esto implica que maximizar la simplicidad de los componentes puede ayudar en la interpretación de los factores y en la agrupación de variables. En R, los métodos MCA se incluyen en los paquetes ade4, MASS, FactoMineR y ca (al menos). En cuanto a FactoMineR, puede usarlo a través de una interfaz gráfica si lo agrega como un menú adicional a los ya propuestos por el paquete Rcmdr, instalando el RcmdrPlugin.FactoMineR

+0

Gracias. Esto es realmente útil. – user227290

+0

Hola, el enlace a la presentación no se encuentra ahora. –

Cuestiones relacionadas