Una vez que el CSV se carga a través read.csv
, es bastante trivial para utilizar multicore
, segue
etc para jugar con los datos de la CSV. Leerlo, sin embargo, es bastante el tiempo de hundirse.R: ¿Es posible paralelizar/acelerar la lectura de una CSV de más de 20 millones de filas en R?
cuenta de que es mejor utilizar MySQL, etc, etc
Suponga que el uso de un 8XL AWS agruparse instancia de proceso se ejecuta R2.13
Especificaciones de la siguiente manera:
Cluster Compute Eight Extra Large specifications:
88 EC2 Compute Units (Eight-core 2 x Intel Xeon)
60.5 GB of memory
3370 GB of instance storage
64-bit platform
I/O Performance: Very High (10 Gigabit Ethernet)
Cualquier pensamientos/ideas muy apreciado.
Esta pregunta también puede ser interesante para usted: http://stackoverflow.com/questions/9061736/faster-than-scan-with-rcpp –
O este también http://stackoverflow.com/questions/1727772/quickly-reading-very-large-tables-as-dataframes-in-r –