2012-01-31 13 views
6

Mi trabajo no requiere clasificación, solo información de agregación por clave. Entonces, creo que es posible desactivar la clasificación de toda la información para aumentar el rendimiento.¿Es posible desactivar la ordenación en hadoop?


Nota: No puedo establecer que los reductores cuenten a cero porque necesito agregar datos entre muchos mapeadores. Simplemente no me interesa el resultado ordenado con un reductor.

+0

AFAIK, la clasificación es una fase esencial en el trabajo de MR, no puede omitirlo. La clasificación generalmente no es un elemento importante de la sobrecarga del rendimiento. – wlk

+0

yura, encontraste una solución? Estoy votando para cerrar como una víctima, porque en la otra pregunta, ¡en realidad hay una respuesta! – gsamaras

+0

Posible duplicado de [Hadoop y Python: deshabilitar ordenación] (http://stackoverflow.com/questions/19188263/hadoop-and-python-disable-sorting) – gsamaras

Respuesta

0

Uno de los principales propósitos para ordenar la salida del mapa es, cuando las tuplas llegan al reductor, reductor para invocar la tarea del reductor, con la lista de salida del mapa ordenado puede hacer la lista solo por exploración secuencial (cuando ve una clave diferente y luego hace una nueva lista), si la salida del mapa no está ordenada, entonces debe escanear toda la lista para formar la lista con la misma clave.

Cuestiones relacionadas