¿Cuál es la diferencia real entre ejecutar secuencias de comandos PIG localmente y en mapreduce? Entiendo que el modo mapreduce es cuando lo ejecuta en un clúster que tiene hdfs instalados. ¿Significa esto que el modo local no necesita HDFS, por lo que incluso los trabajos de reducción de mapas no se disparan? ¿Cuál es la diferencia y cuándo el otro?Diferencia entre PIG local y mapreduce mode
Respuesta
El modo local creará un trabajo de reducción de mapa simulado que se ejecuta en un archivo local en el disco. En teoría, es equivalente a MapReduce, pero no es un trabajo "real" de mr. No debería ser capaz de distinguir la diferencia desde la perspectiva del usuario.
El modo local es ideal para el desarrollo.
Modo local: todos los scripts se ejecutan en una sola máquina sin necesidad de Hadoop MapReduce y HDFS. Esto puede ser útil para desarrollar y probar Pig logic. Si está utilizando un pequeño conjunto de datos para desarrollar o probar su código, entonces el modo local podría ser más rápido que pasar por la infraestructura de MapReduce.
El modo local no requiere Hadoop. Cuando se ejecuta en modo local, el programa Pig se ejecuta en el contexto de una máquina virtual Java local y el acceso a los datos se realiza a través del sistema de archivos local de una sola máquina. El modo local es en realidad una simulación local de MapReduce en la clase LocalJobRunner de Hadoop.
Modo MapReduce (también conocido como modo Hadoop): Pig se ejecuta en el clúster Hadoop. En este caso, Pig Script se convierte en una serie de trabajos de MapReduce que luego se ejecutan en el clúster de Hadoop.
Si tiene un terabyte de datos en los que desea realizar operaciones y desea desarrollar un programa de manera interactiva, es posible que pronto la velocidad disminuya considerablemente y que pueda comenzar a hacer crecer su almacenamiento. El modo local le permite trabajar con un subconjunto de sus datos de una manera más interactiva para que pueda descubrir la lógica (y resolver los errores) de su programa Pig.
Después de configurar las cosas como usted las desee y de que sus operaciones funcionen sin problemas, puede ejecutar la secuencia de comandos contra el conjunto de datos completo utilizando el modo MapReduce.
- 1. ¿Hay alguna diferencia entre (local), '.' y localhost?
- 2. ¿Cuál es la diferencia entre JTA y una transacción local?
- 3. phpinfo() diferencia entre el valor maestro y el valor local
- 4. Tuareg-mode y caml-mode
- 5. Apache Ivy: Diferencia entre la caché Ivy local y el repositorio local
- 6. Diferencia entre 'SpecialFolder.LocalApplicationData' y 'SpecialFolder.ApplicationData'?
- 7. ¿Cuál es la diferencia entre compilation debug = "false" y Release mode?
- 8. Diferencia entre $ HOME y '~' (tilde)?
- 9. Diferencia entre RSCRIPT y Littler
- 10. MySQL: diferencia entre ', `,' y"
- 11. Diferencia entre objeto y *?
- 12. Diferencia entre. y #
- 13. ¿Diferencia entre == y caso?
- 14. La diferencia entre $ * y $ @
- 15. Diferencia entre & y &
- 16. VBA: Diferencia entre y y +
- 17. MapReduce y SQL GROUP POR
- 18. Diferencia entre SystemInformation.ComputerName, Environment.MachineName y Net.Dns.GetHostName
- 19. Algoritmo del coeficiente de agrupamiento local distribuido (MapReduce/Hadoop)
- 20. Diferencia entre -Wconversion entre gcc y g ++
- 21. Producto cruzado en MapReduce
- 22. Diferencias entre declarar, tipografiar y variable local en Bash
- 23. Unir vs COGROUP en PIG
- 24. Commit diferencias entre local y remoto
- 25. Diferencia entre subprocess.Popen y os.system
- 26. Diferencia entre decimal y decimal
- 27. ¿Diferencia entre trazo y relleno?
- 28. Diferencia entre interrupción y eventos
- 29. Diferencia entre netTcpContextBinding y netTcpBinding
- 30. ¿Diferencia entre brújula y sass?
Una cosa a tener en cuenta es que no hay soporte para los contadores en modo local, pero eso se debe a Hadoop Map/Reduce en lugar de Pig. – cyang