2008-09-17 18 views

Respuesta

17

En primer lugar, usted tiene que decidir si se va a construir su jerarquía de abajo hacia arriba o de arriba hacia abajo.

De abajo hacia arriba se llama Agrupamiento aglomerativo jerárquico. Aquí hay un algoritmo simple y bien documentado: http://nlp.stanford.edu/IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html.

La distribución de un algoritmo ascendente es complicada porque cada proceso distribuido necesita todo el conjunto de datos para tomar decisiones sobre los clústeres apropiados. También necesita una lista de clústeres en su nivel actual para que no agregue un punto de datos a más de un clúster en el mismo nivel.

La construcción jerarquizada de arriba hacia abajo se llama Divisive clustering. K-means es una opción para decidir cómo dividir los nodos de su jerarquía. Este documento analiza K-means y Partición divisiva de dirección principal (PDDP) para la división de nodos: http://scgroup.hpclab.ceid.upatras.gr/faculty/stratis/Papers/tm07book.pdf. Al final, solo necesita dividir cada nodo padre en nodos secundarios relativamente bien balanceados.

Un enfoque de arriba hacia abajo es más fácil de distribuir. Después de dividir su primer nodo, cada nodo creado puede enviarse a un proceso distribuido para dividirse de nuevo, y así sucesivamente ... Cada proceso distribuido solo necesita conocer el subconjunto del conjunto de datos que está dividiendo. Solo el proceso principal conoce el conjunto de datos completo.

Además, cada división podría realizarse en paralelo.Dos ejemplos de k-medias:

+4

¿Conoce alguna agrupación de aglomeración jerárquica distribuida? – Nullpoet

+0

El enlace sobre PDDP no funciona. –

+0

Encuentre un [enlace renovado] (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.101.1882&rep=rep1&type=pdf) para el trabajo del Sr. Manasi N. Joshi sobre el tema. – uprego

0

Puede ver parte del trabajo que se realiza con mapas de autoorganización (método de red neuronal de Kohonen) ... los chicos en Vienna University of Technology han trabajado en el cálculo distribuido de su creciente algoritmo de mapa jerárquico.

Esto es un poco en el borde de su pregunta agrupación, por lo que no puede ayudar, pero no puedo pensar en nada más cerca;)

2

Clark Olson revisan diversos algoritmos distribuidos para la agrupación jerárquica:

CF Olson. "Algoritmos paralelos para Agrupamiento jerárquico". Paralelo Informática, 21: 1313-1325, 1995, doi:10.1016/0167-8191(95)00017-I.

Parunak et al. describir un algoritmo inspirado en cómo las hormigas ordenar sus nidos:

H. Van Dyke Parunak, Richard Rohwer, Theodore C. Belding, y Sven Brueckner: "dinámica descentralizada Cualquiera Tiempo agrupación jerárquica" En Proc. 4to Taller Internacional sobre Ingeniería de Sistemas de auto-organización (ESOA) 2006, doi:10.1007/978-3-540-69868-5

2

Compruebe hacia fuera esta muy legible aunque un poco anticuado review by Olson (1995). La mayoría de los periódicos desde entonces requieren una tarifa para acceder. :-)

Si usa R, recomiendo probar pvclust que logra utilizando el paralelismo snow, otro módulo R.

Cuestiones relacionadas