Al referirse Joel's ArticleConfusión sobre Unicode y varios bytes artículos
Algunas personas están bajo el idea errónea de que Unicode es simplemente un código de 16 bits, donde cada personaje tiene 16 bits, y por lo tanto no son 65.536 caracteres posibles . Esto no es, en realidad, correcto.
Después de leer todo el artículo, mi punto es que, si alguien te dijo, su texto está en Unicode, no tendrás idea de cuánto espacio de memoria ocupan cada uno de sus personajes. Él tiene que decirle, "Mi texto Unicode está codificado en UTF-8", entonces solo usted tendrá idea de cuánto espacio de memoria ocupa cada uno de sus personajes.
Microsoft::
Unicode = no es necesario 2 bytes para cada carácter
Sin embargo, cuando se trata de Code Project's Article y Microsoft's Help, esto me confunde
Unicode es una Codificación de caracteres de 16 bits , proporcionando suficientes codificaciones f o todos los idiomas Todos los caracteres ASCII se incluyen en Unicode como caracteres "ensanchados".
Proyecto Código:
El conjunto de caracteres Unicode es una "amplia carácter" (2 bytes por carácter) establecer que contiene todos los personajes disponible en todos los idiomas, incluyendo todo símbolos técnicos y caracteres de publicación especiales . Multibyte conjunto de caracteres (MBCS) utiliza ya sea 1 o 2 bytes por carácter
Unicode = 2 byte para cada carácter?
¿Hay 65536 posibles caracteres capaces de representar a todos los idiomas en este mundo?
¿Por qué el concepto parece diferente entre la comunidad de desarrolladores web y la comunidad de desarrolladores de computadoras de escritorio?
OK. Por lo tanto, en el contenido anterior, Unicode significa "codificación Unicode en UTF-16", y no es necesario 16 bits por carácter, y puede ser más que eso. estoy en lo cierto? –
y ¿Qué hay de MBCS? –
Es cierto que UTF-16 no es una codificación de ancho fijo, debido a su uso de pares sustitutos. - Usted tendrá que determinar a partir de otras fuentes o experimentar si los datos que ellos llaman “Unicode” es en realidad UTF-16 (puede tener sustitutos y representar a todos Unicode) o UCS-2 (no puede tener sustitutos; sólo puede representar el BMP porción de Unicode). - no tengo información sobre el término “MBCS”. Sólo –