Tengo una cadena coreana codificada como Unicode como u'정정'
. ¿Cómo sé cuántos bytes se necesitan para representar esta cadena?Obtenga la cantidad de bytes necesarios para una cadena Unicode
Necesito saber el número exacto de bytes porque estoy usando la cadena para la notificación de inserción de iOS y tiene un límite en el tamaño de la carga útil.
len('정정')
no funciona porque eso devuelve el número de caracteres, no el número de bytes.
¿Cómo sabías que este carácter es '\ uC815'? ¿Qué codificación es esta? Probé utf-8/16/32 y ninguno de ellos es correcto, pero '\ uC815' parece estar funcionando. – jasondinh
Tengo una aplicación llamada UnicodeChecker que uso como referencia, pero 'C815' es el punto de código Unicode. Si conoces la secuencia de bytes UTF-8 o UTF-16, puedes * decodificar * para obtener el carácter Unicode (''\ xEC \ xA0 \ x95'.decode (' UTF-8 ')'). El aviso de Python es útil aquí; python usará su codificación 'unicode_escape' cuando haga eco (no imprima) valores unicode al terminal, por ejemplo. –
La longitud de la codificación UTF-16 implica que se incluye la lista de materiales UTF-16. No sé si Python admite algo como 'encode ('UTF-16BE')' para evitarlo. – bames53