Estoy escribiendo una aplicación Java; pero atascado en este puntoPara dividir solo caracteres chinos en Java
Básicamente tienen una cadena de caracteres chinos con también algunas posibles caracteres latinos o números, digamos que:
查詢促進民間參與公共建設法(210BOT法).
que quieren dividir los caracteres chinos, excepto el latín o números como "BOT" anterior. Así, al final voy a tener este tipo de lista:
[ 查, 詢, 促, 進, 民, 間, 參, 與, 公, 共, 建, 設, 法, (, 210, BOT, 法, ), ., ]
¿Cómo puedo resolver este problema (para Java)?
Como una extensión, creo una clase de caracteres en una expresión regular. abarcar los rangos de Unicode anteriores también funcionaría. –
No realmente si también desea interceptar en grupos de dígitos/letras/guiones/lo que sea. Un analizador basado en pila es una mejor herramienta para este tipo de trabajo. – BalusC
¿Esto también funciona para japonés y coreano? –