leí Hadoop in Action y encontró que en Java
usando MultipleOutputFormat
y MultipleOutputs
clases podemos reducir los datos a múltiples archivos pero lo que no estoy seguro es cómo? lograr lo mismo usando Python streaming
.Transmisión de Python: cómo reducir a varias salidas (su posible con Java sin embargo)
por ejemplo:
/out1/part-0000
mapper -> reducer
\ out2/part-0000
Si alguien sabe, oído, cosa similar realizado, por favor hágamelo saber
¿Cómo lo uso? solo descargue el jar, proporcione "-libjar feathers.jar" sin afectar ningún trabajo de mapa/reducción que haya escrito hasta ahora. cualquier código de prueba de prueba que pueda referir a ejecutar usando esto sería útil – daydreamer