Su pregunta no disponga de una respuesta. Hay mejores prácticas dependiendo del dominio.
Una vez que decida la similitud de la métrica, la agrupación generalmente se realiza promediando o encontrando un medoide. Ver estos papeles en datos binarios de agrupamiento para ejemplos de algoritmos:
- Carlos Ordóñez. Agrupamiento de flujos de datos binarios con K-means. PDF
- Tao Li. Un modelo general para agrupar datos binarios. PDF
Para obtener ideas sobre medidas de similitud ver esta línea "tool for measuring similarity between binary strings". Mencionan: Sokal-Michener, Jaccard, Russell-Rao, Hamann, Sorensen, AntiDice, Sneath-Sokal, Rodger-Tanimoto, Ochiai, Yule, Anderberg, Kulczynski, Pearson's Phi, y Gower2, Dot Product, Cosine Coefficient, Hamming Distance. También citan estos documentos:
- Lucas, B. T., Clustering binario Objetos
- Lin, D., una definición de información teórica de similitud.
- Toit, du S.H.C .; Steyn, A.G.W .; Stumpf, R.H .; Análisis gráfico de datos exploratorios; Capítulo 3, p. 77, 1986; Springer-Verlag.
(personalmente me gusta el coseno. También hay KL-divergencia, y su homólogo de distancia Jensen.)
¿Qué hay de la función de distorsión utilizada en K-meloids? No es muy diferente de la distancia euclidiana. – Neo
@CRK K-meloids usa [distancia de Minkowski] (http://en.wikipedia.org/wiki/Minkowski_distance) con p = 1, que es un caso general de distancia euclidiana, ¿no es así? – shn