¿Puede alguien confirmar que todos los caracteres Kanji en chino tienen 3 bytes de longitud en UTF-8?¿Todos los caracteres kanji en UTF-8 tienen 3 bytes de longitud?
17
A
Respuesta
27
Los caracteres Hanzi/Kanji comúnmente utilizados se encuentran en el bloque "CJK Unified Ideographs" entre U + 4E00 y U + 9FFF, y toman 3 bytes en UTF-8. (Los caracteres japoneses Hiragana y Katakana también toman 3 bytes.)
Sin embargo, también hay algunos caracteres muy raramente utilizados en los bloques "CJK Unified Ideographs Extension B" y "CJK Compatibility Ideographs Supplement", que toman 4 bytes en UTF-8.
También tenga en cuenta que el texto chino a menudo contiene caracteres ASCII como los dígitos 0-9.
2
Sí, Kanji es U + 4e00 a U + 9faf, UTF8 3 bytes son U + 0800 a U + FFFF.
Cuestiones relacionadas
- 1. ¿Hay bytes delimitadores para caracteres UTF8?
- 2. tienen una URL que acepta todos los caracteres
- 3. ¿Cómo se analizan los caracteres numéricos kanji con ICU?
- 4. ¿Cómo clasificar los caracteres japoneses como kanji o kana?
- 5. Convierte utf8 a latin1 en PHP. Todos los caracteres superiores a 255 se convierten en referencias de caracteres
- 6. Ruby: Borrando todos los caracteres Unicode (UTF8/Codificación/Manipulación de cadenas)
- 7. Error con los caracteres utf8 y htmlspecialchars en yii
- 8. de caracteres UTF8 decodificación en C Objetivo
- 9. ¿Qué es Scala para encontrar si todos los elementos de una matriz tienen la misma longitud?
- 10. Códec UnicodeDecodeError en/'utf8' no puede decodificar bytes
- 11. CSS, Javascript e imágenes tienen longitud cero
- 12. MySQL UTF8 con Hibernate 3 y Spring
- 13. MySQL - Convertir caracteres latin1 en una mesa de UTF8 en UTF8
- 14. ¿Todos los dominios tienen direcciones IP únicas?
- 15. ¿Cómo obtengo una lista de todos los caracteres Unicode que tienen una propiedad determinada?
- 16. Es "VARCHAR (255) CHARACTER SET utf8" de 255 bytes o 255 caracteres
- 17. Erlang longitud de bytes binario
- 18. Smarty: los caracteres especiales se cambian no deseados-utf8
- 19. Límite de tamaño de índice de 900 bytes en la longitud de caracteres
- 20. Dividir cadena unicode en trozos de 300 bytes sin destruir los caracteres
- 21. Procesamiento UTF8 en C
- 22. Comprimir 21 caracteres alfanuméricos en 16 bytes
- 23. ¿Cómo se representan los caracteres de 4 bytes en C#
- 24. ¿Los carriles de prueba 3 ámbitos tienen sentido?
- 25. La mejor forma de acortar cadena UTF8 en función de la longitud del byte
- 26. C# XmlWriter y UTF8 no válido caracteres
- 27. C# string tienen un límite de longitud
- 28. Regex para todos los caracteres de IMPRESIÓN
- 29. Hibernate/JPA caracteres import.sql utf8 dañados
- 30. Comprobación de longitud de caracteres en rubí
+1 Guau, aparentemente tenemos altavoces chinos en stackoverflow. Guay :-). – sleske
El texto japonés procedente de Shift-JIS también contiene otros caracteres que no son kanji ni ASCII que mapean secuencias de dos bytes. Y luego tendremos que lidiar con los emoji, que también están fuera del plano multilingüe básico y, por lo tanto, 4 bytes ... – bobince
@sleske: No, no hablo * chino. Acabo de hacer demasiado trabajo con la codificación de caracteres. – dan04