longitud de las cadenas en Unicode son diferentes

¿Cómo es que la longitud de las siguientes cadenas es diferente aunque el número de caracteres en las cadenas son las mismaslongitud de las cadenas en Unicode son diferentes

echo strlen("馐 馑 馒 馓 馔 馕 首 馗 馘")."<BR>"; 
echo strlen("Ɛ Ƒ ƒ Ɠ Ɣ ƕ Ɩ Ɨ Ƙ")."<BR>";

salidas

35 
26

Fuente

2011-09-24 Imran Omar Bukhsh

@stereofrog ¿qué pasa con la letra 'a', por ejemplo? cuando aplicamos su valor unicode obtenemos 1 –

Así es como funcionó para mí, ejemplo: echo mb_strlen ("αβγδε", mb_detect_encoding ("αβγδε")); da salida a 5 – Melsi

El primer lote de los personajes ocupan tres bytes cada uno, porque están muy abajo en la lista de caracteres de 39 mil ish, mientras que el segundo grupo solo toma dos bytes cada uno, alrededor de 400. (El número de bytes/octetos requerido por personaje se trata en el UTF-8 wikipedia article.)

strlen cuenta el número de bytes tomados por la cadena, lo que da resultados tan extraños en Unicode.

Fuente

2011-09-24 07:01:57

¿Puedes explicar más cómo toman tres y dos bytes? –

No soy un experto en cómo funciona Unicode, pero básicamente cada carácter es un número variable de bytes, y el bit más significativo de cada byte le dice al lector la longitud, o algo así. Acabo de buscar en Google por Unicode cuando necesitaba averiguarlo. –

¿qué pasa con el, por ejemplo, la letra 'a'. cuando aplicamos su valor Unicode obtenemos 1 –

Uso mb_strlen, se cuentan personajes de codificación proporcionada, no bytes como strlen

Fuente

2011-09-24 07:02:08

Parece como si estuviera contando el número de bytes en la codificación que se utiliza. Por ejemplo, parece que la segunda cadena toma dos bytes por carácter no espacial, mientras que la primera cadena toma tres bytes por carácter no espacial. Esperaría:

echo strlen("A B C D E F G H I")

para imprimir 17 - un solo byte por carácter ASCII.

Supongo que todo esto está usando la codificación UTF-8, que sin duda estaría en línea con el ancho variable de representación.

Fuente

2011-09-24 07:02:19

Según this post on php.net/strlen, PHP interpreta todas las cadenas pasadas a strlen como ASCII.

Fuente

2011-09-24 07:02:33

No soy experto en PHP, pero parece que strlen cuenta bytes ... hay mb_strlen que cuenta caracteres ...

EDITAR - para mayor referencia sobre la forma de varios bytes de codificación de las obras y ver http://en.wikipedia.org/wiki/Variable-width_encoding esp. UTF8 ver http://en.wikipedia.org/wiki/UTF-8 y

Fuente

2011-09-24 07:02:40 Yahia

Tienes razón :) Que debería usar. – kkszysiu

longitud de las cadenas en Unicode son diferentes

Respuesta

Cuestiones relacionadas