2012-07-03 11 views
7

Estoy buscando una herramienta de flujo de trabajo para ejecutar trabajos complejos de map-reducir. Tengo a Oozie en mente pero también quiero explorar Cascading. ¿Hay algún ejemplo de código o ejemplo que encadena trabajos M/R existentes utilizando API en cascada? Además, ¿puede proporcionar la comparación Oozie Vs Cascading?Herramienta de flujo de trabajo comaparison: Oozie Vs Cascading

Respuesta

7

Cascading y Oozie no están en la misma categoría.

Oozie es un programador de flujo de trabajo.

Cascading es una API para crear flujos de trabajo. Es independiente de los programadores, es decir, debe ejecutarse con el sistema de programador que utilice.

Quizás haya algo de confusión porque los documentos de Oozie mencionan un "DAG", y ambos se ejecutan sobre Hadoop.

Además, Cascading tiene una noción de "disponibilidad de datos" en el soporte de punto de control, que es compatible con Oozie, aunque de forma diferente.

0

Personalmente jugar con tanto en cierta medida, lo que encontré interesante con cascada es

1) conciso y expresivo en términos de palabras clave simples como flujo, grifo, tubo, etc.,

2) increíble enfoque basado en TDD para el desarrollo local y la investigación

3) buena vista del planificador (archivo .dot) y será útil una vez que el proyecto crezca, por lo que el mantenimiento es fácil.

4) Enfoque basado en DSL usando groovy, scala, cloujre. así que no hay necesidad de preocuparse por aprender un nuevo idioma o más bien hadoop.

5) despliegue simple en la nube (por ejemplo, soporte de Amazon como despliegue de jar sin procesar).

6) puede llamar a cualquier cosa como cerdos o colmenas existentes o puros otros jarros de MR siempre que expongan java api.

7) increíble para trabajos relacionados con ML y PNL.