¿Cuál es la biblioteca más madura para construir una canalización de análisis de datos en Java/Scala para Hadoop?

2

Scalding también tiene la ventaja de proyectos significativos de código abierto construidos sobre él, como Matrix API y Algebird.

He aquí algunos ejemplos: http://sujitpal.blogspot.com/2012/08/scalding-for-impatient.html

Cascalog fue lanzado casi dos años antes de escaldado, y podría decirse que tiene características más avanzadas para la creación de flujos de trabajo robustos: https://github.com/nathanmarz/cascalog/wiki

Fuente

2013-01-03 06:21:13 pacoid

14

Como Soy un desarrollador de Scoob yo, no espero una respuesta imparcial.

En primer lugar, FlumeJava es un proyecto interno de Google que proporciona una abstracción (asombrosamente productiva) en la parte superior de MapReduce (aunque no en hadoop). Lanzaron un artículo al respecto, que es en lo que se basan proyectos como Scoobi y Crunch.

Si su único criterio es el vencimiento, supongo que la mejor opción es la conexión en cascada.

Sin embargo, si estás buscando la abstracción de estilo FlumeJava (imho superior), deberás elegir entre (S) crunch y Scoobi.

La mayor diferencia, aunque superficial, es que el crujido está escrito en Java, con enlaces Scala (Scrunch). Y Scoobi está escrito en Scala con enlaces de Java (scoobij). Ambas opciones son realmente sólidas, y no te equivocarás, sea cual sea tu elección. Estoy seguro de que hay una historia bastante similar con Crunch, pero Scoobi se está utilizando en proyectos reales y está en continuo desarrollo. Somos bastante activos en la corrección de errores y la implementación de características.

De todos modos, ambos son grandes proyectos con grandes personas detrás de ellos y ambos fueron lanzados en cuestión de días el uno del otro. Proporcionan la misma abstracción (con api similar), por lo que cambiar entre los dos no será un problema en lo más mínimo. Mi recomendación es darles una oportunidad y ver qué funciona para ti. Hay una cerradura en cualquiera de proyecto, por lo que no es necesario para cometer :)

Y si tiene algún comentario, ya sea para el proyecto, por favor asegúrese de proporcionar él :)

Fuente

2012-02-24 10:57:56 Heptic

5

Soy un gran Scoobi ventilador y lo he usado en producción. Me gusta la forma en que te permite escribir programas de Hadoop seguros de tipo de una manera muy idiomática de Scala. Si eso no es necesariamente lo tuyo y te gusta el modelo Cascading pero te asusta la enorme cantidad de código repetitivo que deberías escribir, Twitter ha abierto recientemente su propia capa de abstracción Scala encima de Cascada llamado escaldadura.

Anuncio: https://dev.twitter.com/blog/scalding
GitHub: https://github.com/twitter/scalding

supongo que todo es una cuestión de gusto en este punto ya En cuanto a prestaciones mayoría de los marcos están muy cerca uno del otro.

Fuente

2012-02-24 15:24:54

¿Cuál es la biblioteca más madura para construir una canalización de análisis de datos en Java/Scala para Hadoop?

Respuesta

Cuestiones relacionadas