Tengo un archivo que se describe en Unix como:iconv formato Unicode entrada desconocida
$file xxx.csv
xxx.csv: UTF-8 Unicode text, with very long lines
se visualiza en less
/vi
hará que algunos caracteres especiales (SSA ° ...) ilegible (├╝); Windows tampoco lo mostrará; importarlo directamente a un db simplemente cambiará los caracteres especiales a algunos otros caracteres especiales (+ ä, + ñ, ...).
que querían convertir ahora a una codificación "default legible" con iconv. Cuando trato de convertirlo con iconv
$iconv -f UTF-8 -t ISO-8859-1 xxx.csv > yyy.csv
iconv: illegal input sequence at position 1234
uso de Unicode como entrada y UTF-8 como salida volverá el mismo mensaje
estoy adivinando el archivo es algo codificado en otro formato que no lo hago sé - ¿cómo puedo saber qué formato con el fin de convertirlo en algo "universal" legible ...
intente abrirlo en un editor de texto que le permite cambiar la codificación con el que abrir el archivo. En el peor de los casos, un navegador también lo hará. Luego juegue con las codificaciones disponibles y vea qué muestra los caracteres correctamente. – deceze
Probé con la libreta ++ pero es 680MB y Notepad ++ me dice que es demasiado grande .. –
El archivo no es, obviamente, UTF-8, aunque 'file' adivinado. ¿Puede mostrarnos los ocho bytes comenzando en el desplazamiento 1234, en su forma hexdump? –