Tengo un conjunto de entrenamiento muy grande (~ 2Gb) en un archivo CSV. El archivo es demasiado grande para leer directamente en la memoria (read.csv()
detiene el equipo) y me gustaría reducir el tamaño del archivo de datos mediante PCA. El problema es que (hasta donde puedo decir) necesito leer el archivo en la memoria para ejecutar un algoritmo de PCA (por ejemplo, princomp()
).haciendo PCA en un conjunto de datos muy grande en R
He probado el paquete bigmemory
para leer el archivo en un big.matrix
, pero princomp
no funciona en big.matrix
objetos y no parece que big.matrix
puede ser convertido en algo así como un data.frame
.
¿Hay alguna forma de ejecutar princomp
en un archivo de datos grande que me falta?
Soy un principiante relativo en R, por lo que algo de esto puede ser obvio para usuarios más avezados (disculpas en avance).
Gracias por cualquier información.
Básicamente lo que necesita hacer PCA sin estimar la matriz de covarianza de la muestra. Existe una gran cantidad de literatura sobre PCA de gran dimensión, particularmente con aplicaciones para procesamiento de imágenes y mercados financieros. Sin embargo, es más que probable que no sea algo trivial. – John
¿Cuántas observaciones y cuántas variables contiene el archivo? – rolando2
@ rolando2 Contiene aproximadamente 50K filas y ~ 10000 columnas – user141146