¿Cómo puedo iterar a través de los puntos de código Unicode de una cadena Java?

Así que sé acerca de String#codePointAt(int), pero está indexado por el char offset, no por el offset del punto de código.¿Cómo puedo iterar a través de los puntos de código Unicode de una cadena Java?

estoy pensando en probar algo como:

String#charAt(int) utilizando para obtener el char en un índice
comprobación de que el char está en el high-surrogates range
- si es así, utilizar String#codePointAt(int) a obtener el punto de código, e incrementar el índice por 2
- si no, utilice el char valor que el punto de código, e incrementar el índice de 1

Pero mis preocupaciones son

no estoy seguro de si los puntos de código que son naturalmente en las altas sustitutos gama se almacenarán como dos char valores o uno
esto parece una manera muy costosa de iterar a través de los caracteres
alguien debe haber encontrado algo mejor.

Fuente

2009-10-06 rampion

116

Sí, Java utiliza una codificación UTF-16-esque de representaciones internas de cuerdas, y, sí, que codifica caracteres fuera del plano básico multilingüe (BMP) utilizando el esquema de subrogación.

Si sabe que va a estar tratando con caracteres fuera del BMP, entonces aquí es la forma canónica para iterar sobre los caracteres de una cadena de Java:

final int length = s.length(); 
for (int offset = 0; offset < length;) { 
    final int codepoint = s.codePointAt(offset); 

    // do something with the codepoint 

    offset += Character.charCount(codepoint); 
}

Fuente

2009-10-06 20:21:35

En cuanto a si es o no "caro", bueno ... no hay otra forma integrada en Java. Pero si solo está tratando con scripts latinos/europeos/cirílicos/griegos/hebreos/árabes, entonces simplemente se relaciona() con el contenido de su corazón. :) –

+18

Pero no deberías. Por ejemplo, si su programa genera XML y si alguien le da un oscuro operador matemático, de repente su XML puede ser inválido. –

@Jonathan Feinberg Eso es lo que pensé. Pero aquí vino esa especial matemática E. UTF-16 funciona el 99% del tiempo, pero luego se vuelve realmente doloroso. Especialmente cuando los problemas permanecen ocultos durante mucho tiempo. – Martin

interactuando sobre los puntos de código se presente como un rasgo solicitar en Sun.

Ver Sun Bug Entry

También hay un ejemplo de cómo iterar sobre los puntos de código de Cuerda allí.

Fuente

2009-10-06 20:22:01

Java 8 ahora tiene un método codePoints() integrado en String: http://docs.oracle.com /javase/8/docs/api/java/lang/CharSequence.html#codePoints –

Consulte también mi respuesta para un método alternativo que puede usar en su lugar para java <8 mientras tanto http://stackoverflow.com/a/ 21791059/32453 – rogerdpack

que me gustaría añadir un método de solución que funciona con foreach (ref), además de que puede convertirlo en nueva cadena # puntos de código de método Java de 8 fácilmente cuando se mueve a Java 8:

public static Iterable<Integer> codePoints(final String string) { 
    return new Iterable<Integer>() { 
    public Iterator<Integer> iterator() { 
     return new Iterator<Integer>() { 
     int nextIndex = 0; 
     public boolean hasNext() { 
      return nextIndex < string.length(); 
     } 
     public Integer next() { 
      int result = string.codePointAt(nextIndex); 
      nextIndex += Character.charCount(result); 
      return result; 
     } 
     public void remove() { 
      throw new UnsupportedOperationException(); 
     } 
     }; 
    } 
    }; 
}

Entonces se puede usar con foreach así:

for(int codePoint : codePoints(myString)) { 
    .... 
}

o, alternativamente, si lo que desea es convertir una cadena en una matriz de int (que podría utilizar más memoria RAM que el enfoque anterior):

public static List<Integer> stringToCodePoints(String in) { 
    if(in == null) 
     throw new NullPointerException("got null"); 
    List<Integer> out = new ArrayList<Integer>(); 
    final int length = in.length(); 
    for (int offset = 0; offset < length;) { 
     final int codepoint = in.codePointAt(offset); 
     out.add(codepoint); 
     offset += Character.charCount(codepoint); 
    } 
    return out; 
    }

Fuente

2014-02-14 23:04:57 rogerdpack

Java 8 agregó CharSequence#codePoints que devuelve un IntStream que contiene los puntos de código. Puede utilizar la corriente directamente a iterar sobre ellos:

string.codePoints().forEach(c -> ...);

o con un bucle mediante la recopilación de la corriente en una matriz:

for(int c : string.codePoints().toArray()){ 
    ... 
}

Estas formas son probablemente más caro que Jonathan Feinbergs's solution, pero son más rápidos de leer/escribir y la diferencia de rendimiento generalmente será insignificante.

Fuente

2015-01-06 11:46:43 Alex

'for (int c: (Iterable )() -> string.codePoints(). Iterator())' también funciona. – saka1029

¿Cómo puedo iterar a través de los puntos de código Unicode de una cadena Java?

Respuesta

Cuestiones relacionadas