Tengo una gran base de datos de Mongo (100 GB) alojada en la nube (MongoLab o MongoHQ). Me gustaría ejecutar algunas tareas de Map/Reduce en los datos para calcular algunas estadísticas costosas y me preguntaba cuál es el mejor flujo de trabajo para hacer esto. Idealmente, me gustaría utilizar los servicios Map/Reduce de Amazon para hacerlo en lugar de mantener mi propio clúster Hadoop.¿Cuál es la mejor manera de ejecutar Map/Reduce cosas en Mongo?
¿Tiene sentido copiar los datos de la base de datos a S3. Entonces ejecuta Amazon Map/Reduce on it? ¿O hay mejores formas de hacerlo?
Además, si más adelante quisiera hacer las consultas con frecuencia como todos los días, entonces los datos en S3 deberían reflejar lo que hay en Mongo. ¿Esto complicaría las cosas?
Cualquier sugerencia/historia de guerra sería muy útil.