¿Hay alguna forma de salida para registrar la salida intermedia (Fase de mapa) de un trabajo de MapReduce sin editar la aplicación? (La aplicación no es mía, pero el clúster es, y puedo configurar el clúster Hadoop como quiero)Salida intermedia de Hadoop MapReduce
Respuesta
keep.task.files.pattern parámetro se puede utilizar para mantener los archivos intermedios. Los archivos intermedios deben limpiarse manualmente una vez que se haya completado el trabajo. Como se trata de una propiedad de asignación/reducción de tareas, debe establecerse en el archivo de configuración y el archivo jar empacado nuevamente.
¿puedes por favor elaborar? Establecí este parámetro y busqué en todas partes en los directorios de salida y en los cachés locales mapeados, pero no encontré salida en la etapa de mapa en ningún lugar ... – ihadanny
... Tengo grandes esperanzas en $ {mapred.output.dir }/_ temporal, pero todo lo que pude encontrar es la carpeta "_attempt_local_0003_r_000000" reducida, nunca su contraparte "m" – ihadanny
He establecido 'keep.task.files.pattern' en'. * 00000. * 'en' mapred -site.xml' y en 'core-site.xml' el parámetro' hadoop.tmp.dir' se establece en '$ HADOOP_HOME \ tmp'. Después de ejecutar el trabajo, file.out y file.out.index están en la carpeta '$ HADOOP_HOME/tmp/mapred/local/taskTracker/praveensripati/jobcache/job_201111031937_0001/attempt_201111031937_0001_m_000001_0/output'. Estos archivos están en formato SequenceFile. [Aquí] (http://goo.gl/7fJzT) es el código de muestra para leer los archivos de secuencia. ¿Qué patrón has usado? –
- 1. Hadoop: fusión intermedia fallida
- 2. Hadoop MapReduce - un archivo de salida para cada entrada
- 3. Comenzando con MapReduce/Hadoop
- 4. Error en Hadoop MapReduce
- 5. ¿Cómo se usa MapReduce/Hadoop?
- 6. ejecutando múltiples trabajos de MapReduce en hadoop
- 7. Hadoop: ¿Cómo funciona OutputCollector durante MapReduce?
- 8. reutilizar JVM en trabajos mapreduce de Hadoop
- 9. Idea de proyecto con Hadoop MapReduce
- 10. Configuración de Hadoop: mapred. * Vs mapreduce. *
- 11. Recuento de palabras ordenadas usando Hadoop MapReduce
- 12. Hadoop o Hadoop Streaming para MapReduce en AWS
- 13. Hadoop mapreduce la transmisión desde HBase
- 14. Ordenando datos grandes usando MapReduce/Hadoop
- 15. Encontrar componentes conectados usando Hadoop/MapReduce
- 16. Lectura programática del resultado del programa Mapreduce de Hadoop
- 17. Hadoop MapReduce: Tamaño de archivo de entrada apropiado?
- 18. Hadoop MapReduce: ¿es posible definir dos mapeadores y reductores en una clase de trabajo de hadoop?
- 19. Algoritmo del coeficiente de agrupamiento local distribuido (MapReduce/Hadoop)
- 20. Hadoop MapReduce: Driver para encadenar creadores de mapas dentro de un trabajo MapReduce
- 21. Encadenando múltiples tareas de mapreduce en la transmisión de Hadoop
- 22. (Hadoop) MapReduce - Trabajos en cadena - JobControl no se detiene
- 23. Unir dos conjuntos de datos en Mapreduce/Hadoop
- 24. cómo implementar el cálculo de valores propios con MapReduce/Hadoop?
- 25. ¿Dónde hadoop mapreduce framework envía mis sentencias System.out.print()? (stdout)
- 26. Hadoop MapReduce proporcionar directorios anidados como entrada para el trabajo
- 27. Alternativas de MapReduce
- 28. Desactivar el almacenamiento en memoria intermedia de salida
- 29. Producto cruzado en MapReduce
- 30. Mapreduce for dummies
¿Se puede reconfigurar el trabajo? –