Tengo un programa que lee un montón de texto y lo analiza. El texto puede estar en cualquier idioma, pero debo probar japonés y chino específicamente para analizarlos de otra manera.Prueba de caracteres japoneses/chinos en una cadena
He leído que puedo probar cada carácter en su número Unicode para descubrir si está en el rango de caracteres CJK. Esto es útil; sin embargo, me gustaría separarlos, si es posible, para procesar el texto con diferentes diccionarios. ¿Hay alguna forma de probar si un personaje es japonés o chino?
¿Conoce el conjunto de códigos, o tiene que adivinar eso también? –
Si no conoce el conjunto de códigos, lo que realmente puede hacer su vida más fácil en lugar de tener todo en unicode. – Elijah
termino convertir todo a unicode todos modos para el análisis (que estoy obligado . a, en realidad) que puede detectar el conjunto de códigos antes de la conversión, y esta cuestión es más si el conjunto de códigos que ya es unicode – landyman