2010-03-13 23 views
6

Solo quería desarrollar una aplicación de traducción en un proyecto de Django que permita a los usuarios registrados con ciertos permisos traducir todos y cada uno de los mensajes que aparecen en la última versión.¿Es suficiente UTF-8 para todos los idiomas comunes?

Mi pregunta es, ¿qué juego de caracteres debo usar para las tablas de la base de datos en esta aplicación de traducción? ¿Parece que algunos caracteres del idioma europeo no se pueden almacenar en UTF-8?

+1

UTF-8 es un esquema de codificación para Unicode. Todos los caracteres Unicode se pueden escribir en UTF-8. "Es capaz de representar cualquier personaje en el estándar Unicode" http://en.wikipedia.org/wiki/UTF-8. ¿Que estas preguntando? Si UTF-8 codifica todos los caracteres Unicode? –

+0

tengo curiosidad ... ¿qué caracteres de lenguaje europeo sería eso? – hop

Respuesta

24

Parece que algunos caracteres del idioma europeo no se pueden almacenar en UTF-8?

No es cierto. UTF-8 puede almacenar cualquier conjunto de caracteres sin limitaciones, excepto tal vez para Klingon. UTF-8 es su ventanilla única para la internacionalización. Si tiene problemas con los caracteres, es muy probable que estén codificando problemas, o falta soporte para ese rango de caracteres en la fuente que está usando para mostrar los datos (sin embargo, es extremadamente improbable para un personaje de idioma europeo, pero es común cuando se ve sitios indios en una computadora europea. Consulte también this question)

Si no se puede representar un juego de caracteres no occidental, es posible que la fuente incorporada del usuario no tenga ese rango de UTF-8 cubierto.

Actualización: Klingon es de hecho no es parte de official UTF-8:

Algunos modernos guiones inventados que aún no se han incluido en Unicode (por ejemplo, Tengwar) o que no reúnen los requisitos para su inclusión en Unicode debido a la falta de uso en el mundo real (por ejemplo, Klingon) se enumeran en el Registro Unicode de ConScript, junto con las asignaciones de códigos de área de uso privado no oficiales pero ampliamente utilizadas.

Sin embargo, hay una volunteer project que se ha asignado inofficially puntos de código F8D0-F8FF en la zona privada a Klingon. Gallery of Klingon characters

+0

Si alguien escribió una adición a Unicode que contiene puntos de código para el alfabeto Klingon, esto también podría expresarse con UTF-8. O puede usar un área de uso privado y crear una fuente que se corresponda con esos puntos de código. –

+2

@Williham se ha hecho: Klingon (F8D0-F8FF) http://en.wikipedia.org/wiki/ConScript_Unicode_Registry –

2

UTF-8 se puede utilizar para representar todo el Unicode, por lo que no le permite expresar todos los idiomas comunes. Le permite expresar todos los idiomas.

Si parece que algunos caracteres europeos no funcionan, eso es un problema de codificación.

Cuestiones relacionadas