División de un archivo en el delimitador

Tengo un archivo en un sistema Linux de aproximadamente 10 GB. Contiene 20,000,000 de registros binarios, pero cada registro está separado por un delimitador ASCII "$". Me gustaría utilizar el comando dividir o alguna combinación de los mismos para dividir el archivo en partes más pequeñas. Idealmente, podría especificar que el comando debería dividir cada 1,000 registros (por lo tanto, cada 1,000 delimitadores) en archivos separados. ¿Alguien puede ayudarme con esto?División de un archivo en el delimitador

Fuente

2011-06-01 Jeffrey Kevin Pry

La única parte no ortodoxa del problema parece ser el separador de registros. Estoy seguro de que esto se puede arreglar fácilmente en awk, pero odio awk.

Me transferirlo en el ámbito de los problemas 'normales' en primer lugar:

tr '$' '\n' < large_records.txt | split -l 1000

Esta voluntad por defecto crear xaa, xab, xac ... archivos; mira man split para más opciones

Fuente

2011-06-01 12:02:16 sehe

Esto funcionó perfectamente para los registros que produce hasta que llegó a un error (supongo que es una solución muy fácil). El error es: split: sufijos del archivo de salida agotados. ¡Gracias por tu ayuda! –

Ermmm ... He arreglado el enlace de la página de manual para usted; ['split ... -a 7'] (http://unixhelp.ed.ac.uk/CGI/man-cgi?split) debería funcionar bien – sehe

Excelente. ¡Funciona genial! –

Me encanta :) awk

BEGIN { RS="$"; chunk=1; count=0; size=1000 } 
{ 
    print $0 > "/tmp/chunk" chunk; 
    if (++count>=size) { 
     chunk++; 
     count=0; 
    } 
}

(tenga en cuenta que el operador de redirección en AWK sólo se trunca/crea el archivo en su primera invocación - las referencias posteriores se tratan como operaciones anexar - a diferencia de cáscara de redirección)

Fuente

2011-06-01 12:16:03 symcbean

Asegúrese de manera predeterminada la división Unix agotará con sufijos una vez que se alcanza el umbral máximo del límite sufijo por defecto de 2. Más información en: https://www.gnu.org/software/coreutils/manual/html_node/split-invocation.html

Fuente

2013-11-06 00:34:56

División de un archivo en el delimitador

Respuesta

Cuestiones relacionadas