¿Hay algoritmos que pueden ayudar con la agrupación jerárquica? Google-map-reduce tiene solo un ejemplo de k-clustering. En caso de clúster jerárquico, no estoy seguro de cómo es posible dividir el trabajo entre nodos. Otro recurso que he encontrado es: http://issues.apache.org/jira/browse/MAHOUT-19 Pero no es evidente, que se utilizan algoritmos.distribuida agrupación jerárquica
Respuesta
En primer lugar, usted tiene que decidir si se va a construir su jerarquía de abajo hacia arriba o de arriba hacia abajo.
De abajo hacia arriba se llama Agrupamiento aglomerativo jerárquico. Aquí hay un algoritmo simple y bien documentado: http://nlp.stanford.edu/IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html.
La distribución de un algoritmo ascendente es complicada porque cada proceso distribuido necesita todo el conjunto de datos para tomar decisiones sobre los clústeres apropiados. También necesita una lista de clústeres en su nivel actual para que no agregue un punto de datos a más de un clúster en el mismo nivel.
La construcción jerarquizada de arriba hacia abajo se llama Divisive clustering. K-means es una opción para decidir cómo dividir los nodos de su jerarquía. Este documento analiza K-means y Partición divisiva de dirección principal (PDDP) para la división de nodos: http://scgroup.hpclab.ceid.upatras.gr/faculty/stratis/Papers/tm07book.pdf. Al final, solo necesita dividir cada nodo padre en nodos secundarios relativamente bien balanceados.
Un enfoque de arriba hacia abajo es más fácil de distribuir. Después de dividir su primer nodo, cada nodo creado puede enviarse a un proceso distribuido para dividirse de nuevo, y así sucesivamente ... Cada proceso distribuido solo necesita conocer el subconjunto del conjunto de datos que está dividiendo. Solo el proceso principal conoce el conjunto de datos completo.
Además, cada división podría realizarse en paralelo.Dos ejemplos de k-medias:
Puede ver parte del trabajo que se realiza con mapas de autoorganización (método de red neuronal de Kohonen) ... los chicos en Vienna University of Technology han trabajado en el cálculo distribuido de su creciente algoritmo de mapa jerárquico.
Esto es un poco en el borde de su pregunta agrupación, por lo que no puede ayudar, pero no puedo pensar en nada más cerca;)
Clark Olson revisan diversos algoritmos distribuidos para la agrupación jerárquica:
CF Olson. "Algoritmos paralelos para Agrupamiento jerárquico". Paralelo Informática, 21: 1313-1325, 1995, doi:10.1016/0167-8191(95)00017-I.
Parunak et al. describir un algoritmo inspirado en cómo las hormigas ordenar sus nidos:
H. Van Dyke Parunak, Richard Rohwer, Theodore C. Belding, y Sven Brueckner: "dinámica descentralizada Cualquiera Tiempo agrupación jerárquica" En Proc. 4to Taller Internacional sobre Ingeniería de Sistemas de auto-organización (ESOA) 2006, doi:10.1007/978-3-540-69868-5
Compruebe hacia fuera esta muy legible aunque un poco anticuado review by Olson (1995). La mayoría de los periódicos desde entonces requieren una tarifa para acceder. :-)
Si usa R, recomiendo probar pvclust que logra utilizando el paralelismo snow, otro módulo R.
También puede ver Finding and evaluating community structure in networks por Newman y Girvan, donde proponen un enfoque para evaluar comunidades en redes (y un conjunto de algoritmos basados en este enfoque) y la medición de la división de redes en calidad de comunidades (modularidad gráfica).
- 1. problema con la agrupación jerárquica en Python
- 2. agrupación jerárquica en correlaciones en Python scipy/numpy?
- 3. cómo trazar y anotar dendrogramas de agrupación jerárquica en scipy/matplotlib
- 4. trazado de resultados de la agrupación jerárquica ontop de una matriz de datos en python
- 5. Informática distribuida de Javascript
- 6. distribuida ActiveMQ con Camel
- 7. Generación de un mapa de calor que representa los conglomerados en un conjunto de datos utilizando agrupación jerárquica en R
- 8. buscando en la lista jerárquica
- 9. Origen de la estructuración jerárquica
- 10. de consultas SQL: jerárquica Coalesce
- 11. pandas trama de datos jerárquica
- 12. SQL para la relación jerárquica
- 13. Agrupación ~ 100,000 cadenas cortas en Python
- 14. XSLT Agrupación
- 15. tecnología de memoria caché distribuida
- 16. Memoria compartida distribuida en .NET
- 17. Más información sobre informática distribuida
- 18. ¿Qué es una "transacción distribuida"?
- 19. Directrices de diseño Computación distribuida
- 20. Informática distribuida frente a subprocesos
- 21. Tecla XSD/keyref: estructura de clave jerárquica
- 22. Crear una compilación jerárquica con SCons
- 23. (ParentID ID /) lista a la lista jerárquica
- 24. Jerarquía jerárquica ¿Cómo obtengo los últimos descendientes?
- 25. Diagrama de fuerza jerárquica usando D3.js
- 26. hibernación agrupación de conexiones
- 27. Agrupación por intervalos
- 28. Agrupación de formas geográficas
- 29. Clasificación Topológica con Agrupación
- 30. Formtastic seleccione la agrupación
¿Conoce alguna agrupación de aglomeración jerárquica distribuida? – Nullpoet
El enlace sobre PDDP no funciona. –
Encuentre un [enlace renovado] (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.101.1882&rep=rep1&type=pdf) para el trabajo del Sr. Manasi N. Joshi sobre el tema. – uprego