Mi comprensión es calcular percentiles, los datos deben ser ordenados. ¿Sería posible con una gran cantidad de datos repartidos en varios servidores, sin moverlo?¿Se pueden calcular los percentiles de un conjunto de datos de forma cartográfica?
Respuesta
La respuesta a su pregunta es sí, es posible. Pero Map-Reduce realmente no está diseñado para este tipo de tarea. Map-Reduce (como se usa en un clúster Hadoop, por ejemplo) brilla en datos no estructurados o semiestructurados. Si bien tiene la capacidad para procesar otros tipos, no es la más adecuada. (Tenía un proyecto en una empresa donde querían analizar XML en un clúster de Hadoop ... no era lo más divertido).
This scholarly article describe algunos de los problemas con Map-Reduce en datos estructurados y ofertas un enfoque alternativo con "Clydesdale". (Nunca he escuchado o usado esto, así que no puedo respaldarlo ni hablar sobre sus fortalezas/debilidades.)
Estoy buscando más enlaces que ofrezcan explicaciones y alternativas.
Si bien MapReduce como paradigma no parece adecuado para el problema, la implementación de hadoop de MR - es.
La implementación de Hadoop de map reduce se basa en ordenación distribuida - y es lo que necesita. Hadoop está haciendo la clasificación moviendo datos entre servidores solo una vez, no tan mal.
Sugiero que veas la implementación de hadoop terasort que ilustra la buena (y probablemente la mejor) forma de ordenar datos masivos con hadoop. http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html
Primero crearía un histograma, ya sea en una máquina o varias máquinas. Una vez que tenga un recuento para cada valor posible de cubos con valores posibles, puede combinarlos si es necesario. La ganancia para usar un histograma es que tiene O (1) tiempo de inserción/ordenación en lugar de O (log n) y usa el espacio O (M) donde M es el número de valores posibles o segmentos en lugar de O (N) donde N es el numero de muestra
Un histograma se ordena de forma natural para que pueda obtener un recuento total y encontrar los percentiles contando desde cualquier extremo.
- 1. Percentiles de captura de datos en vivo
- 2. Algoritmo rápido para calcular percentiles para eliminar valores atípicos
- 3. Codificación cartográfica cuando se usa Ajax? JQuery
- 4. Forma efectiva de calcular un porcentaje de similitud entre los conjuntos de datos
- 5. ¿Cómo calculo los percentiles con python/numpy?
- 6. ¿Pueden los procedimientos almacenados devolver un conjunto de resultados?
- 7. Valores promedio de un conjunto de datos de punto a un conjunto de datos de cuadrícula
- 8. ¿Cuál es la forma óptima de calcular un código hash para un conjunto de puntos?
- 9. Cálculo de percentiles sobre la marcha
- 10. Git + un gran conjunto de datos?
- 11. Los datos de límite (tamaño) se pueden almacenar en una matriz de javascript.
- 12. Cálculo de rankings de percentiles en MS SQL
- 13. ¿Pueden los datos vincular un control TreeView?
- 14. No se pueden recuperar datos de Cassandra
- 15. ¿Cómo calcular la correlación de dos variables en un gran conjunto de datos en R?
- 16. cómo calcular los puntos de control para una ruta sin problemas dado un conjunto de puntos?
- 17. Python: forma más inteligente de calcular los pagos del préstamo
- 18. ¿Cómo se pueden nombrar las tablas del conjunto de datos que se devuelven en un proceso almacenado?
- 19. ¿Se puede implementar una lista, un conjunto o un diccionario de Python de forma invisible utilizando una base de datos?
- 20. La forma más rápida de calcular la suma de bits en el conjunto de bytes
- 21. la forma de transferir un conjunto de resultados de SQL
- 22. ¿Cómo puedo calcular un producto cartesiano de forma iterativa?
- 23. ¿Cómo se pueden analizar los datos CSV de Excel que contienen saltos de línea en los datos?
- 24. SQL: find percentiles
- 25. ¿Cómo se leen los nombres de variables en un conjunto de datos SAS?
- 26. Magento: los usuarios pueden ver los datos de otros
- 27. ¿Se pueden anidar los repositorios de Mercurial?
- 28. Rellenar un conjunto de datos o una tabla de datos de un conjunto de resultados de consultas LINQ
- 29. Cómo hash un objeto grande (conjunto de datos) en Python?
- 30. ¿Cómo se pueden guardar los datos de ViewBag después de una publicación de formulario?