2010-06-02 13 views
6

Estoy comenzando un nuevo proyecto Hadoop que tendrá múltiples trabajos hadoop (y por lo tanto varios archivos jar). Usando mercurial para el control de la fuente, me preguntaba ¿cuál sería la mejor forma de organizar la estructura del repositorio? ¿Debería cada trabajo vivir en un repositorio separado o sería más eficiente mantenerlos en el mismo, pero dividirlos en carpetas?Organización de depósito para el proyecto Hadoop

Respuesta

1

Si está canalizando las tareas de Hadoop (la salida de una es la entrada de otra), he encontrado que es mejor mantener la mayor parte en el mismo repositorio ya que tiendo a generar muchos métodos comunes que puedo uso en los diversos trabajos de MR.

Personalmente, mantengo los trabajos de transmisión en un repositorio separado de mis trabajos más tradicionales ya que generalmente no hay dependencias.

¿Está planeando utilizar DistributedCache o trabajos de transmisión? Es posible que desee un directorio separado para los archivos que distribuya. ¿Realmente necesitas un JAR por trabajo de Hadoop? He descubierto que no.

Si proporciona más detalles sobre lo que planea hacer con Hadoop, puedo ver qué más puedo sugerir.

+0

Gracias Eric. No voy a planear hacer ningún flujo de trabajos todavía (puede llegar en el futuro, pero todavía no). El proyecto es muy joven y está creciendo, por lo que tengo curiosidad sobre cómo diseñar una buena base que pueda dar cabida a un mayor crecimiento del proyecto. –

Cuestiones relacionadas