Quiero agrupar ~ 100,000 cadenas cortas por algo así como distancia de q-gramo o simple "distancia de bolsa" o tal vez distancia de Levenshtein en Python. Estaba planeando completar una matriz de distancia (100.000 elegir 2 comparaciones) y luego hacer una agrupación jerárquica con pyCluster. Pero me estoy encontrando con algunos problemas de memoria incluso antes de despegar. Por ejemplo, la matriz de distancia es demasiado grande para numpy.Agrupación ~ 100,000 cadenas cortas en Python
aa = numpy.zeros((100000, 100000))
ValueError: array is too big.
¿Esto parece una medida razonable de hacer? ¿O estoy condenado a problemas de memoria en esta tarea? Gracias por tu ayuda.
10 mil millones es un número grande. – nmichaels
Estoy pensando en un enfoque para este problema divertido, pero extraño algo de información. Detalla un poco más qué es exactamente lo que estás tratando de lograr, así como por qué y las posibles suposiciones/limitaciones. Aquí hay 2 preguntas particulares. 1) ¿Puedes tener cadenas replicadas en tu análisis? 2) ¿Realmente necesitas todas las distancias de 2 por 2 o decir que solo una proporción de las distancias más pequeñas para una cadena dada sería suficiente? Aclamaciones. – Morlock