Estoy leyendo un archivo a través de RJDBC desde una base de datos MySQL y muestra correctamente todas las letras en R (por ejemplo, נווה שאנן). Sin embargo, incluso al exportarlo utilizando write.csv y fileEncoding = "UTF-8" la salida se ve como <U+0436>.<U+043A>. <U+041B><U+043E><U+0437><U+0435><U+043D><U+0435><U+0446>
(en este caso, esta no es la cadena anterior, sino una búlgara) para búlgaro, hebreo, chino, etc. Otros caracteres especiales como ã, ç etc funcionan bien.Exportar BOM UTF-8 a .csv en R
Sospecho que esto se debe a BOM UTF-8, pero que no encontrar una solución en la red
Mi sistema operativo Windows 7 es un alemán.
editar: Me trató
con<-file("file.csv",encoding="UTF-8")
write.csv(x,con,row.names=FALSE)
y el (que yo sepa) equivalente write.csv(x, file="file.csv",fileEncoding="UTF-8",row.names=FALSE)
.
¿Está diciendo que cuando abre el archivo exportado, ve "U + 0436" en lugar de "ж"? Si eso no es un problema de BOM, solo un problema del código Unicode no se codifica en una codificación UTF, sino que se genera como puntos de código. Tal vez nos muestre un código de cómo exactamente está exportando el archivo? – deceze
Agregué información sobre cómo exporté el archivo. Y sí, veo "" en lugar de "ж" –
Ver "" en el archivo es ambiguo (incluso podría significar que esos caracteres están realmente insertados en ese archivo o que su editor simplemente no puede mostrarlos). Podrías escribirnos el "ж" en un archivo y decirnos los valores hexadecimales de todos los caracteres que contiene el archivo generado (ábrelo en un editor hexadecimal); O dénos el código para reproducir su problema (por supuesto, no tenemos su base de datos, por lo tanto, cree un vector con los datos de muestra). –