Eliminar caracteres no ASCII de CSV

Quiero eliminar todos los caracteres no ASCII de un archivo en su lugar.Eliminar caracteres no ASCII de CSV

Encontré una solución con tr, pero creo que necesito volver a escribir ese archivo después de la modificación.

Necesito hacerlo en su lugar con un rendimiento relativamente bueno.

¿Alguna sugerencia?

2010-07-26 Sujit

se puede proporcionar un enlace a un revestimiento con tr? –

El OP probablemente (?) Significa caracteres no imprimibles (ctrl-c, número Unicode U + 0002, es un carácter ASCII). La pregunta también debe especificar la configuración regional: sin esa información, uno podría (¿debería?) Asumir que se refería a la configuración regional "C". Una respuesta ingenua sería eliminar cualquier byte mayor que 0x7f, lo que preservaría los caracteres que no son imprimibles en la configuración regional C, pero que son caracteres ASCII perfectamente legítimos. Estoy bajando la votación debido a estas razones que la hacen demasiado vaga. – Juan

# -i (inplace) 

sed -i 's/[\d128-\d255]//g' FILENAME

Fuente

2010-07-26 18:51:03 Ivan

tuvo que cambiarlo a sed -i 's/[\ d128- \ d255] // g' NOMBRE DE ARCHIVO y funcionó .. gracias – Sujit

@Sujit: Tenga en cuenta que 'sed -i' todavía crea un archivo intermedio. Simplemente lo hace detrás de la escena. –

@Dennis - entonces, ¿cuál sería la mejor solución? – Sujit

Un oneliner Perl haría: perl -i.bak -pe 's/[^[:ascii:]]//g' <your file>

-i dice que el archivo se va a editar in-situ, y la copia de seguridad va a ser salvado con la extensión .bak.

Fuente

2010-07-26 18:52:58 ssegvic

Éste es también utilizable con 'stdin' como entrada. – h3xStream

La solución perl es más rápida que la solución sed. Intentar actualizar un archivo de 122 GB usando sed llevó 3 horas, mientras que Perl me tomó menos de 2 horas. – Roger

No pude conseguir que la solución 'sed' funcionara en mi entorno (Ubuntu gnu sed 4.2.2) pero funcionó a las mil maravillas. –

Como alternativa a sed o perl, puede considerar usar las clases de caracteres ed (1) y POSIX.

Nota: ed (1) lee el archivo en la memoria para editarlo en el lugar, por lo que para archivos muy grandes que usted debe usar sed -i ..., Perl -i ...

# see: 
# - http://wiki.bash-hackers.org/doku.php?id=howto:edit-ed 
# - http://en.wikipedia.org/wiki/Regular_expression#POSIX_character_classes 

# test 
echo $'aaa \177 bbb \200 \214 ccc \254 ddd\r\n' > testfile 
ed -s testfile <<< $',l' 
ed -s testfile <<< $'H\ng/[^[:graph:][:space:][:cntrl:]]/s///g\nwq' 
ed -s testfile <<< $',l'

Fuente

2010-07-28 13:05:26 trevor

sed -i 's/[^[:print:]]//' FILENAME

Además, este actúa como dos2unix

Fuente

2012-01-17 18:59:11 jcalfee314

No funciona. [: print:] no es lo mismo que ASCII. Hay muchos caracteres imprimibles que no son ASCII. –

También falta el modificador g. Solo se eliminará el primer carácter no imprimible. – proski

@JasonC También hay muchos caracteres ASCII no imprimibles. Es probable que la pregunta original estuviera mal formada. – Juan

me encontré con la siguiente solución que se va a trabajar:

perl -i.bk -pe 's/[^[:ascii:]]//g;' filename

Fuente

2012-12-14 18:39:34

awk '{ sub("[^a-zA-Z0-9\"[email protected]#$%^&*|_\[](){}", ""); print }' MYinputfile.txt > pipe_out_to_CONVERTED_FILE.txt

Fuente

2014-08-19 16:56:46 guestSA

Estoy usando un sistema busybox muy mínimo, en el cual no hay soporte para rangos en tr o clases de caracteres POSIX, así que tengo que hacerlo de la manera anticuada. Aquí está la solución con sed, despojando a todos los caracteres no ASCII no imprimibles a partir del archivo:

sed -i 's/[^a-zA-Z 0-9`[email protected]#$%^&*()_+\[\]\\{}|;'\'':",.\/<>?]//g' FILE

Fuente

2014-10-28 16:40:18

-1

aprecio los consejos que se encuentran en este sitio.

Pero, en mi Windows 10, tuve que usar comillas dobles para que esto funcione ...

sed -i "s/[\d128-\d255]//g" FILENAME

Noté estas cosas ...

Para FILENAME la totalidad ruta \ nombre necesita ser cotizada Esto no funcionó - %TEMP%\"FILENAME" Esto hizo - %TEMP%\FILENAME"
hojas de sed detrás de los archivos temporales en el directorio actual, llamada sed *

Fuente

2017-03-07 22:22:12 Larry8811

Nota: esta respuesta funciona con gnu sed, pero no es portátil para otras versiones de sed (por ejemplo, bsd). Teniendo en cuenta los efectos secundarios mencionados en esta respuesta, parece una versión compilada de ventanas extrañas que intenta emular a gnu sed. O el usuario está enturbiando el agua con problemas de shell no relacionados. – Juan

Esto funcionó para mí:

sed -i 's/[^[:print:]]//g'

Fuente

2017-05-01 20:22:56 AJn

Todavía estoy obteniendo caracteres Unicode como 007F en mi terminal. –

@KatasticVoyage ¿Cuál es su configuración regional (LANG, LC_CTYPE)? – Juan

Probé todas las soluciones y nada funcionó.A continuación, sin embargo, sí:

tr -cd '\11\12\15\40-\176'

Lo que me pareció aquí:

https://alvinalexander.com/blog/post/linux-unix/how-remove-non-printable-ascii-characters-file-unix

Mi problema lo necesitaba en una serie de programas de tuberías, no directamente de un archivo, por lo que modificar según sea necesario.

Fuente

2017-12-21 05:39:15

Trate tr en lugar de sed

tr -cd '[:print:]' < file.txt

Fuente

2018-02-28 10:24:05 Vivek

El OP mencionó específicamente que no quería usar tr (porque quería una conversión "in situ" que sed -i pretende ser- realmente escribe en un archivo temporal y cambia el nombre detrás de escena). Entonces esta respuesta no ayuda al OP. PERO ... para aquellos que quieran usar tr, es posible que desee preservar nuevas líneas (la versión 20180228 que se muestra aquí no). Sin embargo, un simple tweak conserva las líneas nuevas y los retornos de carro: 'tr -cd '[: print:] \ n \ r' Juan

Eliminar caracteres no ASCII de CSV

Respuesta

Cuestiones relacionadas