Quiere confirmar simplemente lo siguiente. Verifique si esto es correcto: 1. Según tengo entendido, cuando copiamos un archivo en HDFS, ese es el momento en que el archivo (suponiendo que su tamaño> 64 MB = tamaño de bloque HDFS) se divide en múltiples fragmentos y cada fragmento se almacena en diferentes nodos de datos.Acerca de la división de archivos Hadoop/HDFS
contenidos de archivos ya están divididos en trozos cuando el archivo se copia en HDFS y que el archivo de división no sucede en el momento de un trabajo en ejecución mapa. Las tareas del mapa solo están programadas de tal forma que funcionen en cada porción del máximo. tamaño 64 MB con ubicación de datos (es decir, la tarea de mapa se ejecuta en ese nodo que contiene los datos/fragmento)
La división de archivos también ocurre si el archivo está comprimido (gzip) pero MR garantiza que cada archivo sea procesado por un solo asignador , es decir, MR recogerá todos los fragmentos del archivo gzip que se encuentran en otros nodos de datos y los dará a todos al mapeador único.
Ocurrirá lo mismo que arriba si definimos isSplitable() para devolver falso, es decir, todos los fragmentos de un archivo serán procesados por un asignador ejecutándose en una máquina. MR leerá todos los fragmentos de un archivo de diferentes nodos de datos y los pondrá a disposición de un solo mapeador.
Un título más descriptivo sería una mejora bienvenida a su pregunta. –