2010-09-09 13 views

Respuesta

27

Los caracteres Hanzi/Kanji comúnmente utilizados se encuentran en el bloque "CJK Unified Ideographs" entre U + 4E00 y U + 9FFF, y toman 3 bytes en UTF-8. (Los caracteres japoneses Hiragana y Katakana también toman 3 bytes.)

Sin embargo, también hay algunos caracteres muy raramente utilizados en los bloques "CJK Unified Ideographs Extension B" y "CJK Compatibility Ideographs Supplement", que toman 4 bytes en UTF-8.

También tenga en cuenta que el texto chino a menudo contiene caracteres ASCII como los dígitos 0-9.

+0

+1 Guau, aparentemente tenemos altavoces chinos en stackoverflow. Guay :-). – sleske

+2

El texto japonés procedente de Shift-JIS también contiene otros caracteres que no son kanji ni ASCII que mapean secuencias de dos bytes. Y luego tendremos que lidiar con los emoji, que también están fuera del plano multilingüe básico y, por lo tanto, 4 bytes ... – bobince

+2

@sleske: No, no hablo * chino. Acabo de hacer demasiado trabajo con la codificación de caracteres. – dan04

2

Sí, Kanji es U + 4e00 a U + 9faf, UTF8 3 bytes son U + 0800 a U + FFFF.

Cuestiones relacionadas