2010-03-17 41 views
8

Estoy interesado en realizar clusters de kmeans en una lista de palabras con Leveshtein como medida de distancia.palabras en clúster de Python KMeans

1) Sé que hay una gran cantidad de marcos por ahí, incluyendo scipy y naranja que tiene una aplicación kmeans. Sin embargo, todos requieren algún tipo de vector como datos que realmente no me quedan.

2) Necesito una buena implementación de la agrupación. Miré el clúster python y me di cuenta de que no a) devuelve la suma de toda la distancia a cada centroide, yb) no tiene ningún tipo de límite de iteración o corte que garantice la calidad de la agrupación. el clúster de pitón y el algoritmo de agrupación en daniweb no funcionan para mí.

¿Alguien puede encontrarme una buena lib? Google no ha sido mi amigo

+0

Necesitaría exactamente lo mismo. ¿Has encontrado algo desde entonces? – Jabba

Respuesta

0

No es realmente una respuesta a su problema, pero recomiendo echar un vistazo a "Programming Collective Intelligence". Al final de cada capítulo, por ejemplo, agrupación, se desvía describiendo la mejor lectura sobre el tema.

1

Sí creo que no es una buena aplicación para lo que necesito.

que tienen algunos requisitos locos, como la distancia almacenamiento en caché, etc.

Así que creo que voy a escribir sólo mi propia lib y lanzarlo como GPLv3 pronto.

+1

¿Alguna actualización sobre esto? Gracias –

0

Tal vez echar un vistazo a Weka. Es una biblioteca de Java con algunas implementaciones de aprendizaje no supervisadas y buenas herramientas de visualización. Ha pasado un tiempo desde que lo usé, no estoy seguro de si es genial para un entorno de producción real, pero sin duda es un buen punto de partida.

Cuestiones relacionadas