(Incluso más básico que Difference between Pig and Hive? Why have both?)Usando Pig/Hive para el procesamiento de datos en lugar del mapa directo de Java, ¿reduce el código?
Tengo una canalización de procesamiento de datos escritos en varios Java mapa- reducir las tareas más Hadoop (mi propio código personalizado, derivados de asignador de Hadoop y reductor). Es una serie de operaciones básicas como join, inverse, sort y group by. Mi código está involucrado y no es muy genérico.
¿Cuáles son los pros y los contras de continuar este enfoque de desarrollo intensivo cierto que frente a la migración de todo para cerdo/colmena con varios UDF? ¿Qué trabajos no podré ejecutar? ¿sufriré una degradación del rendimiento (trabajando con cientos de TB)? ¿Perderé la capacidad de modificar y depurar mi código cuando lo mantengo? ¿podré canalizar parte de los trabajos como Java map-reduce y usar su entrada-salida con mis trabajos Pig/Hive?
(trabajo en Pig en Twitter): El número 110-150% es algo arbitraria. Con frecuencia, Pig será mucho más rápido que tu código porque realiza muchas optimizaciones. Fundamentalmente, traduce las cosas a MR, por lo que no puede ser más rápido que MR. Pero el código directo de principiante a intermedio con frecuencia perderá a Pig. – SquareCog
Thnx para la comprensión. –