Mucho se ha escrito sobre la implementación de aplicaciones de procesamiento de datos en EC2/S3, pero me gustaría saber cuál es el flujo de trabajo típico para desarrollar tales aplicaciones.Flujo de trabajo para desarrollar aplicaciones de procesamiento numérico en Amazon ec2/S3
Digamos que tengo un 1 TB de datos de serie de tiempo para empezar y he logrado almacenar esto en S3. ¿Cómo escribiría aplicaciones y haría un análisis de datos interactivo para construir modelos de aprendizaje automático y luego escribiría programas grandes para probarlos? En otras palabras, ¿cómo se hace para configurar un entorno de desarrollo en tal situación? ¿Inicié una instancia de EC2, desarrollé software en ella y guardo mis cambios, y cierro cada vez que quiero hacer algún trabajo?
Normalmente, enciendo R o Pylab, leo datos de mis discos locales y hago mi análisis. Luego creo aplicaciones basadas en ese análisis y lo dejo en esos datos.
En EC2, no estoy seguro si puedo hacer eso. ¿Las personas conservan los datos localmente para el análisis y solo usan EC2 cuando tienen grandes trabajos de simulación para ejecutar?
Tengo mucha curiosidad por saber lo que otras personas están haciendo, especialmente las nuevas empresas que tienen toda su infraestructura basada en EC2/S3.
Gracias por compartir esto. Entonces, básicamente, mantendrás una copia local (fuera de Amazon) de los datos y también desarrollarás localmente (fuera de Amazon) pero ejecutarás experimentos en Amazon? – signalseeker
Nuestro negocio no es experimentar, pero esencialmente eso es lo que hacemos. Parte de la aplicación incluye tablas y reglas de impuestos muy grandes. Los mantenemos en nuestra propia red y enviamos actualizaciones a Amazon cada vez que cambian las tarifas o las reglas (por lo general, la medianoche al final de cada mes). –