Soy nuevo en hadoop e intento procesar el volcado de wikipedia. Es un archivo xml comprimido de 6.7 GB gzip. Leí que hadoop admite archivos comprimidos gzip, pero solo puede ser procesado por el mapeador en un solo trabajo, ya que solo un mapeador puede descomprimirlo. Esto parece poner una limitación en el procesamiento. ¿Hay una alternativa? como descomprimir y dividir el archivo xml en varios fragmentos y recomprimirlos con gzip.Archivos comprimidos Hadoop gzip
leí sobre el gzip hadoop de http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html
Gracias por su ayuda.
¿No tenemos también necesidad de mantener la integridad del archivo XML para cada división? – root1982
Sí, y esa es la tarea de la instancia de RecordReader que se utiliza. –
Esto es cierto de un archivo comprimido gzip completo, pero Hadoop puede usar bloque gzipping para evitar esto. Ver la respuesta de Ted. – jhclark