Tengo una lista de 120 millones de registros de alrededor de 40/50 bytes cada uno, que es aproximadamente 5.5/6 gigabytes de espacio de memoria sin procesar, sin incluir el almacenamiento adicional requerido para mantener un matriz en memoria.Crear una lista única del conjunto de datos demasiado grande para caber en la memoria
Me gustaría asegurarme de que esta lista sea única. La forma en que he intentado hacerlo es crear una cadena Hashset < > y agregar todas las entradas una por una.
Cuando llego a unos 33 millones de registros, me quedo sin memoria y la creación de listas se ralentiza.
¿Existe una mejor manera de ordenar esta enorme lista de entradas de manera oportuna? La única solución en la que puedo pensar es usar una instancia extra grande cuádruple de memoria alta Amazon EC2 durante una hora.
Gracias
¿Dónde se almacena este conjunto de datos? –