He intentado agrupar algunos datos más grandes. que consta de 50000 vectores de medición con una dimensión 7. Estoy tratando de generar de 30 a 300 clústeres para su posterior procesamiento.biblioteca de clústeres a gran escala posiblemente con enlaces de python
He estado tratando los siguientes implementaciones de agrupamiento sin suerte:
- Pycluster.kcluster (da sólo 1-2 racimos no vacías en mi conjunto de datos)
- scipy.cluster.hierarchy.fclusterdata (corre demasiado tiempo)
- scipy.cluster.vq.kmeans (se queda sin memoria)
- sklearn.cluster.hierarchical.Ward (es demasiado largo)
¿Hay alguna otra implementación que pueda perder?
¿Qué pasó con el tiempo de ejecución k-means siendo 'O (n * k * i)' con 'k, i << n'? –