¿Cómo controlo el nombre y el contenido de los archivos de salida de un trabajo de transmisión de Hadoop?

¿Hay alguna manera de controlar los nombres de archivo de salida de un trabajo de Hadoop Streaming? Específicamente, me gustaría que el contenido y el nombre de los archivos de salida de mi trabajo estén organizados por ket el reductor, cada archivo solo contendría valores para una clave y su nombre sería la clave.¿Cómo controlo el nombre y el contenido de los archivos de salida de un trabajo de transmisión de Hadoop?

Actualización: Acaba de encontrar la respuesta - El uso de una clase Java que se deriva de MultipleOutputFormat como el formato de salida de trabajos permite el control de los nombres de los archivos de salida. http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html

no he visto ninguna de las muestras de este por ahí ... Puede alguien señalar a una muestra de Hadoop Transmisión de que hace uso de una clase Java formato de salida personalizado?

Fuente

2009-05-20 Eran Kampf

El uso de una clase Java que se deriva de MultipleOutputFormat como el formato de salida de trabajos permite el control de los nombres de los archivos de salida. http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html

Al utilizar Hadoop Streaming, ya que sólo se admite un frasco que realmente tiene que desembolsar el frasco streaming y poner sus nuevas clases de formato de salida en el mismo para la transmisión de puestos de trabajo para poder hacer referencia a él ...

EDIT: partir de la versión 0.20.2 de hadoop esta clase ha quedado obsoleto y que ahora debe utilizar: http://hadoop.apache.org/docs/mapreduce/current/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html

Fuente

2009-08-05 02:29:56

Enlace roto a nuevos documentos –

-1

En general, Hadoop haría que considere el directorio completo como salida y no un archivo individual. No hay forma de controlar directamente el nombre del archivo, ya sea que use Streaming o trabajos Java normales.

Sin embargo, nada le impide hacer esta división y renombrarse, una vez que el trabajo haya terminado. Puede $ HADOOP dfs -cat ruta/a/su/salida/directorio/parte- *, y canalizarlo a un script suyo que divide el contenido por claves y lo escribe en archivos nuevos.

Fuente

2009-05-24 16:39:57

En eso es en general no es el enfoque que desea tomar. –

¿Cómo controlo el nombre y el contenido de los archivos de salida de un trabajo de transmisión de Hadoop?

Respuesta

Cuestiones relacionadas