¿Todos los caracteres kanji en UTF-8 tienen 3 bytes de longitud?

¿Puede alguien confirmar que todos los caracteres Kanji en chino tienen 3 bytes de longitud en UTF-8?¿Todos los caracteres kanji en UTF-8 tienen 3 bytes de longitud?

Fuente

2010-09-09 TopCoder

Los caracteres Hanzi/Kanji comúnmente utilizados se encuentran en el bloque "CJK Unified Ideographs" entre U + 4E00 y U + 9FFF, y toman 3 bytes en UTF-8. (Los caracteres japoneses Hiragana y Katakana también toman 3 bytes.)

Sin embargo, también hay algunos caracteres muy raramente utilizados en los bloques "CJK Unified Ideographs Extension B" y "CJK Compatibility Ideographs Supplement", que toman 4 bytes en UTF-8.

También tenga en cuenta que el texto chino a menudo contiene caracteres ASCII como los dígitos 0-9.

Fuente

2010-09-09 23:50:51 dan04

+1 Guau, aparentemente tenemos altavoces chinos en stackoverflow. Guay :-). – sleske

El texto japonés procedente de Shift-JIS también contiene otros caracteres que no son kanji ni ASCII que mapean secuencias de dos bytes. Y luego tendremos que lidiar con los emoji, que también están fuera del plano multilingüe básico y, por lo tanto, 4 bytes ... – bobince

@sleske: No, no hablo * chino. Acabo de hacer demasiado trabajo con la codificación de caracteres. – dan04

Sí, Kanji es U + 4e00 a U + 9faf, UTF8 3 bytes son U + 0800 a U + FFFF.

Fuente

2010-09-09 17:10:14 gawi

¿Todos los caracteres kanji en UTF-8 tienen 3 bytes de longitud?

Respuesta

Cuestiones relacionadas