hadoop escribe en un formato SequenceFile
en pares clave-valor (registro). Considere que tenemos un gran archivo de registro ilimitado. Hadoop dividirá el archivo según el tamaño del bloque y lo guardará en múltiples nodos de datos. ¿Se garantiza que cada pareja clave-valor residirá en un solo bloque? o podemos tener un caso para que la clave esté en un bloque en el nodo 1 y el valor (o partes de él) en el segundo bloque en el nodo 2? Si podemos tener divisiones incompletas, ¿cuál es la solución? marcadores de sincronización?División SequenceFile de forma controlada - Hadoop
Otra pregunta es: ¿Hadoop escribe automáticamente marcadores de sincronización o deberíamos escribirlo manualmente?