2011-09-29 12 views

Respuesta

2

El Dumbo Feathers, un conjunto de clases Java para utilizar junto con Dumbo (una biblioteca de Python que hace que sea fácil escribir programas eficientes de Python M/R para hadoop), lo hace en su output classes.

Básicamente, en su trabajo python dumbo M/R, genera una clave que es una tupla de dos elementos; el primer elemento es el nombre del directorio al que se debe enviar, el segundo elemento es la clave real. La clase de salida que ha seleccionado inspecciona la tupla para encontrar qué directorio de salida usar y usa MultipleOutputFormat para escribir en diferentes subdirectorios.

Con dumbo, esto es fácil debido al uso de typedbytes como formato de salida, pero creo que debería ser factible incluso si tiene otros formatos de salida.

+0

¿Cómo lo uso? solo descargue el jar, proporcione "-libjar feathers.jar" sin afectar ningún trabajo de mapa/reducción que haya escrito hasta ahora. cualquier código de prueba de prueba que pueda referir a ejecutar usando esto sería útil – daydreamer

Cuestiones relacionadas