Estoy ejecutando un trabajo de Hadoop usando Hive en realidad, que se supone que contiene uniq
líneas en muchos archivos de texto. En el paso de reducción, elige el registro de marca de tiempo más reciente para cada clave.Usando Hadoop, ¿están garantizados mis reductores para obtener todos los registros con la misma clave?
¿Hadoop garantiza que cada registro con la misma clave, salida por el paso de mapa, irá a un único reductor, incluso si se están ejecutando muchos reductores en un clúster?
Me preocupa que la salida del mapeador pueda dividirse después de que la mezcla se produzca en medio de un conjunto de registros con la misma clave.
en realidad no estoy seguro de esto. Consulte http://stackoverflow.com/questions/26693034/hadoop-strange-behaviour-reduce-function-doesnt-get-all-values-for-a-key. No modifiqué el particionador en mi programa. – Madrugada