¿Hay alguna manera de controlar los nombres de archivo de salida de un trabajo de Hadoop Streaming? Específicamente, me gustaría que el contenido y el nombre de los archivos de salida de mi trabajo estén organizados por ket el reductor, cada archivo solo contendría valores para una clave y su nombre sería la clave.¿Cómo controlo el nombre y el contenido de los archivos de salida de un trabajo de transmisión de Hadoop?
Actualización: Acaba de encontrar la respuesta - El uso de una clase Java que se deriva de MultipleOutputFormat como el formato de salida de trabajos permite el control de los nombres de los archivos de salida. http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html
no he visto ninguna de las muestras de este por ahí ... Puede alguien señalar a una muestra de Hadoop Transmisión de que hace uso de una clase Java formato de salida personalizado?
Enlace roto a nuevos documentos –