¿Por qué combinar las soluciones? Hadoop tiene algunas capacidades excelentes (ver la URL a continuación). Sin embargo, estas capacidades no incluyen que los usuarios empresariales puedan ejecutar análisis rápidos. Las consultas que demoran entre 30 minutos y horas en Hadoop se entregan en 10 segundos con Infobright.
Por cierto, su pregunta inicial no presuponía una arquitectura MPP y por una buena razón. Los clientes de Infobright Liverail, AdSafe Media & InMobi, entre otros, utilizan IEE con Hadoop.
Si se registra para un White Paper Industry http://support.infobright.com/Support/Resource-Library/Whitepapers/, verá una vista del mercado actual donde se describen cuatro casos de uso sugeridos para Hadoop. Fue creado por Wayne Eckerson, Director de Investigación, Aplicaciones Comerciales y Grupo de Arquitectura, TechTarget, en septiembre de 2011.
1) Cree un archivo en línea.
Con Hadoop, las organizaciones no tienen que eliminar ni enviar los datos al almacenamiento sin conexión; pueden mantenerlo en línea indefinidamente al agregar servidores básicos para cumplir con los requisitos de almacenamiento y procesamiento. Hadoop se convierte en una alternativa de bajo costo para cumplir con los requisitos de archivo en línea.
2) Alimente el almacén de datos.
Las organizaciones también pueden usar Hadoop para analizar, integrar y agregar grandes volúmenes de datos web u otros tipos de datos y luego enviarlos al almacén de datos, donde los usuarios ocasionales y avanzados pueden consultar y analizar los datos utilizando herramientas de BI conocidas. Aquí, Hadoop se convierte en una herramienta de ETL para procesar grandes volúmenes de datos web antes de que llegue al almacén de datos corporativo.
3) Soporte analítico.
El grupo de big data (es decir, desarrolladores de Internet) ve a Hadoop principalmente como un motor analítico para ejecutar cálculos analíticos frente a grandes volúmenes de datos. Para consultar Hadoop, los analistas actualmente necesitan escribir programas en Java u otros lenguajes y comprender MapReduce, un marco para escribir aplicaciones distribuidas (o paralelas). La ventaja aquí es que los analistas no están restringidos por SQL cuando formulan consultas. SQL no es compatible con muchos tipos de análisis, especialmente aquellos que implican cálculos entre filas, que son comunes en el análisis del tráfico web. La desventaja es que Hadoop está orientado a lotes y no es propicio para consultas iterativas.
4) Ejecutar informes.
La orientación por lotes de Hadoop, sin embargo, lo hace adecuado para ejecutar informes programados regularmente. En lugar de ejecutar informes contra datos de resumen, las organizaciones ahora pueden ejecutarlos contra datos brutos, lo que garantiza los resultados más precisos.