2011-07-07 103 views

Respuesta

16

Compruebe esto article hacia fuera. Dremel es lo que el futuro de la colmena debe ser (y será).

El principal problema de MapReduce y sus soluciones, como Pig, Hive, etc., es que tienen una latencia inherente entre ejecutar el trabajo y obtener la respuesta. Dremel utiliza un enfoque totalmente novedoso (que salió en 2010 en ese documento por Google), que ...

... utiliza un novedoso motor de ejecución de la consulta sobre la base de los árboles agregador ...

. ..para ejecutar casi en tiempo real, interactivo Y adhoc consultas que MapReduce no puede. Y Pig y Hive no son en tiempo real

Debe vigilar projects como resultado de esto. Es muy nuevo para mí también ... ¡así que cualquier otro comentario experto es bienvenido!

Editar: Dremel es lo que el futuro de COLMENA (y no MapReduce como he mencionado antes) debe ser. Hive en este momento proporciona una interfaz similar a SQL para ejecutar trabajos de MapReduce. La colmena tiene una latencia muy alta, por lo que no es práctica en el análisis de datos ad-hoc. Dremel proporciona una interfaz similar a SQL muy rápida para los datos mediante el uso de una técnica diferente a la de MapReduce.

+0

Bien, pero ¿qué hay del software Storm? – kirugan

+4

Quisiera agregar a los detalles anteriores, observe Apache Drill que es una implementación de código abierto de Dremel de Google. –

3

MapReduce es un algoritmo abstracto para dividir un problema, distribuirlo y combinar los resultados. Dremel parece ser una herramienta específica para consultar y analizar conjuntos de datos.

34

Dremel y MapReduce no son directamente comparables, sino que son tecnologías complementarias.

MapReduce no está específicamente diseñado para analizar datos, sino que es un marco de software que permite una colección de nodos para abordar problemas computacionales distribuidos para grandes conjuntos de datos.

Dremel es una herramienta de análisis de datos diseñada para ejecutar rápidamente consultas en conjuntos de datos masivos y estructurados (como archivos de registro o de eventos). Es compatible con una sintaxis similar a SQL, pero aparte de las tablas anexas, es de solo lectura. No es compatible con la actualización o creación de funciones, ni tiene índices de tabla. Los datos están organizados en un formato "columnar", lo que contribuye a una velocidad de consulta muy rápida. El producto BigQuery de Google es una implementación de Dremel accesible a través de la API RESTful.

Hadoop (una implementación de código abierto de MapReduce) junto con el software de almacenamiento de datos "Hive", también permite el análisis de datos para conjuntos de datos masivos utilizando una sintaxis de estilo SQL. Hive esencialmente convierte las consultas en funciones de MapReduce. A diferencia del uso de un formato ColumIO, Hive intenta hacer consultas rápidas mediante el uso de técnicas como la indexación de tablas.

+1

Por cierto, la entrada es de solo lectura, pero puede materializar la salida de las consultas de Dremel para su futura reutilización –

Cuestiones relacionadas