Tengo que realizar un agrupamiento k-means en una matriz realmente enorme (aproximadamente 300,000x100,000 valores que es más de 100Gb). Quiero saber si puedo usar el software R para realizar esto o weka. Mi computadora es un multiprocesador con 8 Gb de RAM y cientos de Gb de espacio libre.K-medias con matriz realmente grande
Tengo espacio suficiente para los cálculos, pero cargar una matriz así parece ser un problema con R (no creo que usar el paquete bigmemory me ayude a utilizar una matriz grande y automáticamente toda mi memoria RAM, entonces mi archivo de intercambio si no suficiente espacio).
Así que mi pregunta es: ¿qué software debo usar (eventualmente en asociación con algunos otros paquetes o configuraciones personalizadas).
Gracias por ayudarme.
Nota: Utilizo linux.
El problema es muy probable que se ejecute en que la R es que el almacenamiento de estos datos en una matriz limita los índices al valor entero máximo (2147483647) y tiene más elementos que eso. Esto no es una limitación de memoria, sino una limitación que resulta del uso de enteros para indexar los datos. ¿Puedes probar la matriz en su lugar? – Noah
¿Por qué quieres agrupar los 300,000 objetos a la vez? ¿Por qué no tomar una muestra más pequeña, agrupar eso y luego asignar los objetos restantes a su clúster más cercano? –
¿Cuántos conglomerados estás buscando? ¿Hay muestras con agrupamiento conocido, para validación? – denis