Aunque uso Hadoop con frecuencia en mi máquina Ubuntu nunca he pensado en los archivos SUCCESS
y part-r-00000
. La salida siempre reside en el archivo part-r-00000
, pero ¿para qué sirve el archivo SUCCESS
? ¿Por qué el archivo de salida tiene el nombre part-r-0000
? ¿Hay alguna nomenclatura/significado o es solo una definición aleatoria?¿Qué son los archivos SUCCESS y part-r-00000 en hadoop?
Respuesta
Ver http://www.cloudera.com/blog/2010/08/what%E2%80%99s-new-in-apache-hadoop-0-21/
En la finalización con éxito de un trabajo, el tiempo de ejecución de MapReduce crea un archivo _SUCCESS en el directorio de salida. Esto puede ser útil para aplicaciones que necesitan ver si un conjunto de resultados está completo simplemente inspeccionando HDFS. (MapReduce-947)
Esto normalmente sería utilizado por los sistemas de planificación de tareas (como oozie), para denotar que la producción de seguimiento en el procesamiento del contenido de este directorio puede comenzar ya que todos los datos han sido.
actualización (en respuesta a comentar)
Los archivos de salida están por defecto nombrados parte-x-yyyyy donde:
x
es o bien 'm' o 'r', dependiendo de si el trabajo era un mapa único trabajo, o reduciryyyyy
es el número asignador o reductor de tarea (basado en cero)
Por lo tanto, un trabajo que tenga 32 reductores tendrá archivos llamados part-r-00000 en la parte-r-00031, uno para cada tarea del reductor.
- 1. ¿Qué son los archivos .a y .so?
- 2. ¿Qué son los archivos .sln y .vcproj, y qué contienen?
- 3. ¿Qué son los archivos .S?
- 4. ¿Qué son los archivos NDF?
- 5. ¿Qué son los archivos derivados en Eclipse?
- 6. ¿Qué son los archivos * .snap en eclipse?
- 7. ¿Qué son los archivos swz en Flash?
- 8. ¿Qué son los archivos ODEX en Android?
- 9. ¿Qué son los archivos VSSVER.SCC y puedo eliminarlos?
- 10. ¿Qué son los archivos .idb de MonoDevelop?
- 11. XFL - ¿Qué son los archivos ./bin/*.dat?
- 12. Diferencia entre .success() y .complete()?
- 13. ¿Cuáles son los pros y los contras de ejecutar un trabajo en Hadoop usando varios idiomas?
- 14. Secuencia de archivos en Hadoop
- 15. Archivos comprimidos Hadoop gzip
- 16. git ¿Qué son los archivos sin seguimiento en un repositorio?
- 17. ¿Qué son "% 1" y "% 2" en archivos por lotes?
- 18. ¿Qué son estos archivos .pch y .ncb en Visual Studio?
- 19. ¿Qué son los modificadores transitorios y volátiles? -
- 20. Grep en varios archivos en el sistema de archivos Hadoop
- 21. ¿Qué son los sombreadores Vertex y Pixel?
- 22. ¿Qué idioma son los archivos conf de nginx?
- 23. ¿Qué formatos de archivos gráficos son compatibles con los navegadores?
- 24. ¿Para qué son los archivos js adicionales del framework Angular.js?
- 25. Integración Hadoop y MySQL
- 26. ¿Qué tan portátiles son los archivos de haz Erlang?
- 27. ¿Qué son los archivos .datasource de Referencia de servicio WCF?
- 28. ¿Por qué los "Archivos de programa" son dos palabras?
- 29. ¿Qué son los RFC?
- 30. ¿Qué son los archivos rastreados y no rastreados en el contexto de GIT?
Eso no explica por qué el archivo de salida se llama 'part-r-00000', sin embargo, o si esto siempre es siempre el caso. –
Actualizado para abordar específicamente el comentario de @KyleStrand –
Tenga en cuenta que: actualmente ('hadoop-streaming-2.4.0.2.1.1.0') no hay' x' si usted usa hadoop-streaming. Entonces será como 'part-00000'. – masu