Como parte de un proyecto en el que estoy trabajando, me gustaría limpiar un archivo que genero de entradas de línea duplicadas. Sin embargo, estos duplicados a menudo no se producirán cerca uno del otro. Se me ocurrió un método para hacerlo en Java (que básicamente hizo una copia del archivo, luego usé una declaración while anidada para comparar cada línea en un archivo con el resto del otro). El problema es que mi archivo generado es bastante grande y pesado de texto (alrededor de 225k líneas de texto, y alrededor de 40 megas). ¡Estimo que mi proceso actual demorará 63 horas! Esto definitivamente no es aceptable.Eliminación de líneas duplicadas en un archivo usando Java
Necesito una solución integrada para esto, sin embargo. Preferiblemente en Java. ¿Algunas ideas? ¡Gracias!
9 respuestas y no hay votos? esta es una pregunta perfectamente válida y bien formulada –