Estoy comenzando un nuevo proyecto Hadoop que tendrá múltiples trabajos hadoop (y por lo tanto varios archivos jar). Usando mercurial para el control de la fuente, me preguntaba ¿cuál sería la mejor forma de organizar la estructura del repositorio? ¿Debería cada trabajo vivir en un repositorio separado o sería más eficiente mantenerlos en el mismo, pero dividirlos en carpetas?Organización de depósito para el proyecto Hadoop
6
A
Respuesta
1
Si está canalizando las tareas de Hadoop (la salida de una es la entrada de otra), he encontrado que es mejor mantener la mayor parte en el mismo repositorio ya que tiendo a generar muchos métodos comunes que puedo uso en los diversos trabajos de MR.
Personalmente, mantengo los trabajos de transmisión en un repositorio separado de mis trabajos más tradicionales ya que generalmente no hay dependencias.
¿Está planeando utilizar DistributedCache o trabajos de transmisión? Es posible que desee un directorio separado para los archivos que distribuya. ¿Realmente necesitas un JAR por trabajo de Hadoop? He descubierto que no.
Si proporciona más detalles sobre lo que planea hacer con Hadoop, puedo ver qué más puedo sugerir.
Cuestiones relacionadas
- 1. C organización # solo proyecto
- 2. Organización de carpetas de proyecto Eclipse Java
- 3. Django y organización de proyecto/aplicación
- 4. Organización de un proyecto de prueba unitaria para soluciones grandes
- 5. Idea de proyecto con Hadoop MapReduce
- 6. Organización de carpetas y archivos para el desarrollo de Python
- 7. Organización de proyectos SVN: por módulo o por proyecto
- 8. Disposición de depósito Mercurial para múltiples ramas
- 9. Hadoop o Hadoop Streaming para MapReduce en AWS
- 10. organización de proyectos Redmine?
- 11. Organización de proyectos PHP
- 12. ¿Enviar el parche al proyecto de Github sin clonar el depósito en Github?
- 13. Hadoop Machine learning/idea de proyecto de minería de datos?
- 14. organización de aplicaciones django
- 15. Organización de Xcode en el buscador?
- 16. limpiando un depósito Mercurial
- 17. Depósito cifrado de Subversion
- 18. Organización de CSS para sitios grandes
- 19. Organización de parciales para un recurso polimórfico
- 20. Organización de ajustes en Django
- 21. Organización de archivos de origen
- 22. Depósito remoto claro de Git
- 23. Mejores prácticas para la organización de proyectos con ASP.NET MVC
- 24. Organización de la solución ASP.NET MVC
- 25. Organización de proyectos usando Maven + Git
- 26. Mejores prácticas (ejemplos?) Sobre la organización del código REST API versionado en el proyecto Java/Spring?
- 27. Organización de directorio de proyectos iOS
- 28. Depósito vs Servicios de dominio
- 29. Organización de proyectos en C Best Practices
- 30. Exportación Colmena tabla a un depósito de S3
Gracias Eric. No voy a planear hacer ningún flujo de trabajos todavía (puede llegar en el futuro, pero todavía no). El proyecto es muy joven y está creciendo, por lo que tengo curiosidad sobre cómo diseñar una buena base que pueda dar cabida a un mayor crecimiento del proyecto. –