Estoy trabajando en un proyecto que trata sobre el análisis de una gran cantidad de datos, así que descubrí MapReduce bastante recientemente, y antes de profundizar más en él, me gustaría asegurarme de que mis expectativas sean las correctas.¿MapReduce es adecuado para mí?
La interacción con los datos se realizará desde una interfaz web, por lo que el tiempo de respuesta es crítico aquí, estoy pensando en un límite de 10-15 segundos. Suponiendo que mis datos se cargarán en un sistema de archivos distribuido antes de realizar cualquier análisis sobre él, ¿qué tipo de rendimiento puedo esperar de él?
Digamos que necesito filtrar un archivo XML simple de 5GB que está bien formado, tiene una estructura de datos bastante plana y 10,000,000 de registros en él. Y digamos que la salida dará como resultado 100.000 registros. ¿Son 10 segundos posibles?
Si es así, ¿qué tipo de hardware estoy mirando? Si no, ¿por qué no?
Pongo el ejemplo abajo, pero ahora deseo que no lo haya hecho. 5GB era solo una muestra de la que estaba hablando, y en realidad estaría lidiando con una gran cantidad de datos. 5 GB pueden ser datos durante una hora del día, y es posible que desee identificar todos los registros que cumplan ciertos criterios.
Una base de datos realmente no es una opción para mí. Lo que quería saber es cuál es el rendimiento más rápido que puedo esperar al usar MapReduce. ¿Siempre es en minutos u horas? ¿Nunca es segundos?
Considere que Map reduce se trata de enviar un cálculo a los datos (almacenados en varias máquinas que operan en su pieza). Un único archivo de 5 GB no se ajusta realmente al modelo. – z5h
MapReduce es excesivo para un archivo de 5 GB. Puede manejar eso en una máquina, especialmente si solo está cambiando una vez al día. Además, MapReduce es un concepto, no una implementación real. Si fuera a usarlo, querría investigar implementaciones particulares. –
Si MapReduce (o cualquier otro concepto) es lo correcto, depende en gran medida del tipo de análisis que tenga en mente, con qué frecuencia cambian sus datos, de qué manera y qué tipo de preprocesamiento es posible. ¡Definitivamente debe proporcionar más detalles antes de poder obtener una respuesta útil! –