Cómo convertir el archivo * .txt en Unicode

Tengo un requisito en el que un cliente proporcionará un archivo para codificar ANSI, pero mi sistema solo puede leer correctamente un archivo en UNICODE. Entonces, ¿cómo abordo este problema? Sé que cuando "guardo como" el archivo en UNICODE codificado, el archivo se recoge. Es difícil hacer que el cliente cumpla con nuestra solicitud. Entonces, ¿puedo tener un programa por lotes para esta carpeta para convertir este archivo en UNICODE y luego retomar?Cómo convertir el archivo * .txt en Unicode

Fuente

2009-03-08 Anonymous

Cuando dices 'Unicode', ¿te refieres a UTF8, UTF16, UTF32, o alguna otra representación? ¿Y cómo detectará el código fuente cuando no es Unicode? ¿En que plataforma Estas tu? –

La mayoría de las personas piensan que UTF-32 = Unicode. Culpo a MS y sus opciones de "Guardar como" para que esta idea prevalezca entre las masas. Es triste ver a un desarrollador (que debería saber mejor) compartirlo. –

MS usa principalmente UCS-2, no UTF-32. – flodin

recode podría hacer el trabajo.

Fuente

2009-03-08 09:49:50

iconv puede hacer eso:

Usage: iconv [OPTION...] [FILE...] 
Convert encoding of given files from one encoding to another. 

Input/Output format specification: 
    -f, --from-code=NAME  encoding of original text 
    -t, --to-code=NAME   encoding for output 

Information: 
    -l, --list     list all known coded character sets 

Output control: 
    -c       omit invalid characters from output 
    -o, --output=FILE   output file 
    -s, --silent    suppress warnings 
     --verbose    print progress information 

    -?, --help     Give this help list 
     --usage    Give a short usage message 
    -V, --version    Print program version 

Mandatory or optional arguments to long options are also mandatory or optional 
for any corresponding short options. 

For bug reporting instructions, please see: 
<http://www.gnu.org/software/libc/bugs.html>.

Fuente

2009-03-08 10:17:26

También puede convertir fácilmente las codificaciones en Python:

inf = open("infile.txt") 
data = inf.read().decode("latin1") 
inf.close() 

outf = open("outfile.txt", "w") 
outf.write(data.encode("utf-8")) 
outf.close()

Fuente

2009-03-08 10:47:00 sth

he aquí una solución Powershell

$lines = gc "pathToFile" 
$lines | out-file -enconding Unicode

Fuente

2009-03-08 13:27:20 JaredPar

Ni ANSI ni Unicode son codificaciones. Deberá conocer la página de códigos ANSI del archivo de entrada y el codificador Unicode ding (UTF8 o UTF16 - LE o BE) antes de que pueda usar una de las herramientas sugeridas (como iconv)

Fuente

2009-03-08 13:40:58

Desearía poder votar esto más. Para la mayoría de los usuarios de Windows, "Unicode" significa UTF32. La mayoría de los idiomas de Europa occidental usan la página de códigos Latin1, por lo que la mayoría de la gente supone que esa codificación es "ANSI" (una vez más, culpo a MS por el uso de sus palabras en sus opciones de "Guardar como"). –

Podríamos agregar que al buscar en Panel de control-> Configuración regional-> Opciones avanzadas se mostrarán las páginas de códigos ANSI que están instaladas y utilizadas. –

En sistemas Windows, "Unicode" generalmente significa UTF-16. –

Recorrí algunas herramientas mencionadas anteriormente, muchas de ellas requieren línea de comando.

Encontré una manera mucho más fácil de convertir archivos en Windows.

Instalar Notepad2 (http://www.flos-freeware.ch/). Es de código abierto y gratuito.
Abrir el archivo tiene codificación ANSI,
doble clic palabra "ANSI" en la parte inferior,
Seleccione nueva codificación tales como "UTF-8"
Guarde el archivo.

Solo hacen unos pocos clics para realizar el trabajo.

Además, puede revisar fácilmente el contenido una vez hecho para verificarlo dos veces.

Notepad2 tiene varias ventajas sobre el Bloc de notas. código resaltado, deshacer/rehacer, etc.

: D

Fuente

2014-10-06 02:43:45 CodeFarmer

No veo cómo cambiar la codificación usando la GUI de Notepad2 es más fácil que usar la línea de comando, especialmente con múltiples archivos para hacer? – ehambright

La interfaz gráfica de usuario no es pan comido: X Commandline necesita dependencia ... notepad ++ es solo hacer clic, haga clic en clic ... – CodeFarmer

Rubí oneliner, fwiw:

ruby -e 'STDOUT.write STDIN.read.force_encoding(Encoding::WINDOWS_1252).encode!(Encoding::UTF_8)' <infile.csv> outfile.csv

Si el archivo de entrada es horrible lo que pueda necesitar tachuela STDIN.binmode; STDOUT.binmode; en la parte frontal del guión Ruby.

Fuente

2015-07-29 23:44:27 bronson

Cómo convertir el archivo * .txt en Unicode

Respuesta

Cuestiones relacionadas