Uno de los principales ejemplos que se utiliza para demostrar el poder de MapReduce es el Terasort benchmark. Tengo problemas para entender los conceptos básicos del algoritmo de clasificación utilizado en el entorno MapReduce.¿Cómo funciona el algoritmo de ordenación MapReduce?
Para mí, ordenar simplemente implica determinar la posición relativa de un elemento en relación con todos los demás elementos. Así que clasificar implica comparar "todo" con "todo". Su algoritmo de clasificación promedio (rápido, burbuja, ...) simplemente lo hace de una manera inteligente.
En mi opinión, dividir el conjunto de datos en muchas piezas significa que puede ordenar una sola pieza y luego todavía tiene que integrar estas piezas en el conjunto de datos completo "completo". Dado el conjunto de datos de terabytes distribuidos en miles de sistemas, espero que sea una tarea enorme.
Entonces, ¿cómo se hace esto realmente? ¿Cómo funciona este algoritmo de clasificación MapReduce?
Gracias por ayudarme a entender.
Entiendo (la mayoría de) los conceptos de MapReduce como se describe en los documentos mencionados. Estoy tratando de entender el algoritmo de clasificación. –