He empezado a buscar en Hadoop. Si mi entendimiento es correcto, podría procesar un archivo muy grande y se dividiría entre diferentes nodos; sin embargo, si el archivo está comprimido, entonces el archivo no se podría dividir y debería procesarse por un solo nodo (lo que efectivamente destruiría la ventaja de ejecutando un mapreduce ver un cluster de máquinas paralelas).Pregunta muy básica sobre Hadoop y archivos de entrada comprimidos
Mi pregunta es, suponiendo que lo anterior sea correcto, ¿es posible dividir un archivo grande manualmente en trozos de tamaño fijo o trozos diarios, comprimirlos y luego pasar una lista de archivos de entrada comprimidos para realizar un mapreduce?
Gracias que suena genial. –