Yo tengo necesidad de hacer un análisis de cluster en un conjunto de datos dimensionales 2 (que puede añadir dimensiones adicionales en el camino).La determinación de la mejor k de k vecino más cercano
El análisis en sí formará parte de los datos que se alimenta en una visualización, en lugar de las entradas en otro proceso (por ejemplo Radial Basis Function Networks).
Con este fin, me gustaría encontrar un conjunto de clusters, que principalmente "se ve bien", en lugar de la aclaración de algunos patrones ocultos.
Mi intuición es que k-means sería un buen punto de partida para esto, pero que encontrar el número correcto de clústeres para ejecutar el algoritmo sería problemático.
El problema que estoy viniendo a es la siguiente:
Cómo determinar la 'mejor' valor de kde tal manera que los grupos formados son estables y visualmente verificable?
Preguntas:
- Suponiendo que esto no es NP-completo, ¿cuál es la complejidad de tiempo para encontrar un buen k. (probablemente se informó en varias ocasiones para ejecutar el algoritmo k-means).
- es k-significa un buen punto de partida para este tipo de problema? Si es así, ¿qué otros enfoques recomendaría? Un ejemplo específico, respaldado por una anécdota/experiencia sería maxi-bon.
- lo cortes/aproximaciones corta me recomiendan para aumentar el rendimiento.
El plano es una superficie continua geográfica, es decir. – jamesh