Me pregunto si hay una forma de concatenar archivos de texto unix más rápido que ejecutando cat
?¿Cuál es la forma más rápida de grabar varios archivos?
Aquí está el problema que estoy enfrentando. Estoy procesando una secuencia de un archivo de texto ~ 100G en tamaño . Estoy tratando de mejorar el tiempo de ejecución dividiendo el archivo en cientos de archivos pequeños y procesándolos en paralelo. Al final, los archivos resultantes vuelven a estar juntos en orden. El tiempo de lectura/escritura del archivo en sí demora horas. Me gustaría encontrar una forma de mejorar lo siguiente:
cat file1 file2 file3 ... fileN >> newBigFile
Esto requiere el doble de espacio en disco como
file1
...fileN
ocupa 100G, y luegonewBigFile
toma otro 100Gb, y luegofile1
. ..fileN
obtiene eliminadolos datos ya está en
file1
...fileN
, haciendo lascat >>
incurre leen y escribir momento en que todo lo que realmente necesito es para los cientos de archivos a vuelven a aparecer como 1 archivo ...
Suena como que usted debe utilizar algo con un poco más músculo que una cáscara de Unix. –
No tengo idea de lo que estoy hablando, pero ¿es posible manipular el registro del archivo o algo así? Como lo que tenía que hacer era no duplicar los datos, sino simplemente encadenar varios archivos de nuevo en 1? – Wing