Por lo tanto, estoy trabajando en un proyecto plain-C (ANSI 9899: 1999), y estoy tratando de averiguar por dónde empezar re: Unicode, UTF-8 y todo ese jazz.¿Dónde puedo comenzar con la programación amigable para Unicode en C?
Específicamente, es un proyecto de intérprete de idiomas, y tengo dos lugares principales donde tendré que manejar Unicode: leer en archivos fuente (el lenguaje ostensiblemente admite identificadores Unicode y similares) y en objetos 'de cadena'.
Estoy familiarizado con todos los fundamentos obvios sobre Unicode, UTF-7/8/16/32 & UCS-2/4, y así sucesivamente ... Estoy buscando principalmente C específica (es decir, por favor no C++ o C#, que es todo lo que se ha documentado aquí en SO anteriormente) recursos en cuanto a mis 'próximos pasos' para implementar cosas Unicode-friendly ... en C.
Cualquier enlace, página de manual, artículos de Wikipedia, código de ejemplo, es muy bienvenido. También trataré de mantener una lista de dichos recursos aquí en la pregunta original, para cualquiera que lo encuentre más tarde.
- Una lectura obligada antes de considerar cualquier otra cosa, si no está familiarizado con Unicode, y lo que una codificación realidad es: http://www.joelonsoftware.com/articles/Unicode.html
- El UTF-8 home-page: http://www.utf-8.com/
man 3 iconv
(así comoiconv_open
yiconvctl
)- International Components for Unicode (vía Geoff Reedy)
libbasekit
, que parece incluir herramientas Unicode de manipulación de luz- Glib tiene algunos Unicode funciona
- Una función básica UTF-8 detector, por Christoph
+1 para iconv, donde está disponible. en Windows icu podría ser una mejor opción –