Se encuentran disponibles muchos algoritmos para clustering. Un algoritmo popular es el K-means donde, basado en un número dado de clusters, el algoritmo itera para encontrar los mejores clusters para los objetos.¿Qué método usas para seleccionar la cantidad óptima de clústeres en k-medias y EM?
¿Qué método usas para determinar el número de clústeres en los datos en k-means clustering?
¿Hay algún paquete disponible en R que contenga el método V-fold cross-validation
para determinar el número correcto de conglomerados?
Otro enfoque bien utilizado es el algoritmo de maximización de expectativas (EM) que asigna una distribución de probabilidad a cada instancia que indica la probabilidad de que pertenezca a cada uno de los clústeres.
¿Este algoritmo se implementa en R?
En caso afirmativo, ¿tiene la opción de seleccionar automáticamente el número óptimo de conglomerados mediante validación cruzada?
¿Prefiere algún otro método de agrupamiento?
Dejé intencionalmente la agrupación jerárquica porque hclust es un método bastante hambriento de memoria, no adecuado para grandes conjuntos de datos en los que estoy realmente más interesado. –
Defina lo que quiere decir con "óptimo" – hadley
Gran pregunta @Svante, he estado pensando mucho en eso. Incluso tuve la intención de escribir un paquete con varios algoritmos para una cantidad óptima de clusters (solo métodos hclust). @hadley, he conocido: índice C-H (Calinsky y Harabasz), C-índice, coeficiente gamma Goodman-Kruskal. y hay una manera de "elegir una solución de clúster óptima" mediante la prueba F. Aquí hay una referencia: Miligan, G.W. Y Cooper, M.C. (1985). Un examen de procedimientos para determinar el número de conglomerados en un conjunto de datos, Psychometrika, 50, 159-179 Aunque supongo que prefiere la decisión "basada en gráficos" sobre la solución óptima ... – aL3xa