2010-06-16 6 views
5

soy un novato en lo que el uso de la computación en nube, pero me sale el concepto y soy bastante bueno en las instrucciones siguientes. Me gustaría hacer algunas simulaciones sobre mis datos y cada paso lleva varios minutos. Dada la jerarquía en mis datos, toma varias horas para cada conjunto. Me gustaría acelerar esto al ejecutarlo en la nube EC2 de Amazon.Ayúdame a copiar datos sobre EC2 de la Amazonia y ejecutar un script

Después de leer this, sé cómo poner en marcha un IAM, conectarse a ella a través de la cáscara, y lanzar R en el símbolo del sistema.

Lo que me gustaría ayuda en es ser capaz de copiar los datos (archivos .rdata) y un guión y simplemente la fuente él en el símbolo R. Luego, una vez que todos los resultados se escriben en nuevos archivos .rdata, me gustaría copiarlos a mi máquina local.

¿Cómo puedo hacer esto?

+0

Hay servicios que harán que esto sea más fácil para usted. Ver, por ejemplo, http://www.monkeyanalytics.com/ o http://biocep-distrib.r-forge.r-project.org/ –

+0

monkeyanalytics se ve muy bien, pero desafortunadamente no parecen estar en vivo (o al menos su registro no es instantáneo). Aunque aprecio los avisos. – Maiasaura

Respuesta

3

no sé mucho acerca de R, pero hacer cosas similares con otros idiomas. Lo que sugiero probablemente te dará algunas ideas.

  1. Configure un servidor FTP en su máquina local.
  2. Cree un "script de inicio" que inicie con su instancia.
  3. Deje que el script de inicio descargue los archivos R de su máquina local, inicialice R y realice los cálculos, luego cargue los nuevos archivos en su máquina.

Puesta en servicio de la escritura:

#!/bin/bash 
set -e -x 
apt-get update && apt-get install curl + "any packages you need" 
wget ftp://yourlocalmachine:21/r_files > /mnt/data_old.R 
R CMD BATCH data_old.R -> /mnt/data_new.R 
/usr/bin/curl -T /mnt/data_new.r -u user:pass ftp://yourlocalmachine:21/new_r_files 

instancia de inicio con un script de inicio

ec2-run-instances --key KEYPAIR --user-data-file my_start_up_script ami-xxxxxx 
1

primer uso ID de Amazon S3 para almacenar los archivos
tanto desde su máquina local y vuelta desde la instancia
como se indicó anteriormente, puede crear scripts de inicio, o incluso agrupar su propia AMI personalizada con todas las configuraciones necesarias y ejecutar sus instancias desde ella
Así que descarga los archivos desde un cubo en S3, ejecutar y procesar, por último subir los resultados al mismo cubo/diferente en S3
asumiendo que los datos es pequeño (cómo guiones grande puede ser) que S3 coste/utilidad sería muy efectivo

Cuestiones relacionadas