Intento abrir un archivo .csv codificado en UTF-8 que contiene caracteres chinos (tradicionales) en R. Por alguna razón, R muestra la información algunas veces como caracteres chinos, a veces como unicode caracteres.Mostrar caracteres chinos codificados en UTF-8 en R
Por ejemplo:
data <-read.csv("mydata.csv", encoding="UTF-8")
data
producirá caracteres Unicode, mientras que:
data <-read.csv("mydata.csv", encoding="UTF-8")
data[,1]
realmente mostrar caracteres chinos.
Si lo convierto en una matriz, también mostrará caracteres chinos, pero si trato de ver los datos (comando Ver (datos) o corregir (datos)) está nuevamente en modo Unicode.
He pedido consejo de personas que usan una Mac (estoy usando una PC, Windows 7), y algunas de ellas tienen caracteres chinos en todas partes, otras no. Traté de guardar los datos originales como una tabla en su lugar y leerlos en R de esta manera - el mismo resultado. Intenté ejecutar el script en RStudio, Revolution R y RGui. Traté de ajustar la configuración regional (por ejemplo, a chino), pero o bien R no me permitió cambiarlo o el resultado fue un galimatías en lugar de caracteres unicode.
Mi localización actual es:
"LC_COLLATE = French_Switzerland.1252; LC_CTYPE = French_Switzerland.1252; LC_MONETARY = French_Switzerland.1252; LC_NUMERIC = C; LC_TIME = French_Switzerland.1252"
Cualquier ayuda para que R muestre consistentemente los caracteres chinos sería muy apreciada ...
Hm, esto parece un error. Para aquellos interesados, es fácilmente reproducible con este código: 'x = c ('中華民族'); x; data.frame (x)'.No intentes pegar ese código en el Editor R, simplemente pégalo directamente en la consola o no funcionará. – nograpes
Ver mi respuesta en http://stackoverflow.com/questions/22876746/how-to-read-data-in-utf-8-format-in-r – Sathish