Estoy recopilando registros con Flume para el HDFS. Para el caso de prueba, tengo archivos pequeños (~ 300kB) porque el proceso de recopilación de registros fue escalado para el uso real.¿Cuál es la forma más fácil de combinar bloques HDFS pequeños?
¿Hay alguna manera fácil de combinar estos archivos pequeños en archivos más grandes que están más cerca del tamaño de bloque HDFS (64 MB)?
¿Desea combinar archivos para el almacenamiento, o para la asignación de trabajo mapreduce? – wlk
¿Hay alguna manera de combinarlos desde la perspectiva de los cartógrafos? –
Me gustaría combinarlos para el almacenamiento –