Generación de archivos de salida independiente en Hadoop Transmisión

Usando sólo un mapeador (una secuencia de comandos de Python) y sin reductor, ¿cómo puedo sacar un archivo separado con la clave como el nombre del archivo, para cada línea de salida, en lugar de tener largas filas de salida ?Generación de archivos de salida independiente en Hadoop Transmisión

Fuente

2009-10-26 Ryan R. Rosario

Puede escribir en un archivo de texto en el sistema de archivos local usando las funciones de archivos de Python o si desea usar HDFS use el Thrift API.

Fuente

2009-11-03 18:23:15

Cómo es múltiple mapeadores escrito al mismo archivo al mismo tiempo se maneja, al escribir en el sistema de archivos local o para los hdfs? –

Hacer esto es malo. Entra en conflicto con las tareas de reintentos y le garantiza la necesidad de cuidar su trabajo. – nkadwa

¿Es posible reemplazar el outputFormatClass, cuando se utiliza el streaming? En una implementación de Java nativa podría ampliar la clase MultipleTextOutputFormat y modificar el método que da nombre al archivo de salida. A continuación, defina su aplicación como nueva OutputFormat con el método de setOutputFormat JobConf

debe verificar, si esto es posible en el streaming también. Yo no: -/

Fuente

2009-11-03 00:59:12

Las clases de formato de entrada y salida se pueden reemplazar mediante el uso de los parámetros de línea de comandos -inputformat y -outputformat.

Un ejemplo de cómo hacer esto se puede encontrar en el dumbo project, que es un marco de python para escribir trabajos de transmisión. Tiene una función para escribir en varios archivos, e internamente reemplaza el formato de salida con una clase de su proyecto hermano, feathers - fm.last.feathers.output.MultipleTextFiles.

El reductor necesita emitir una tupla como clave, siendo el primer componente de la tupla la ruta al directorio donde deben escribirse los archivos con los pares clave/valor. Todavía puede haber varios archivos, eso depende de la cantidad de reductores y la aplicación.

recomiendo mirar en Dumbo, tiene muchas características que hacen que sea más fácil escribir en un mapa/Reducir los programas de Hadoop en Python.

Fuente

2009-11-06 20:14:35

Generación de archivos de salida independiente en Hadoop Transmisión

Respuesta

Cuestiones relacionadas