Esta pregunta involucra informática y conocimiento de chino. Tengo consultas en chino y tengo una lista separada de frases en chino. Necesito poder encontrar cuál de estas consultas tiene alguna de estas frases.¿Cómo funciona la tokenización y la coincidencia de patrones en chino?
En inglés, es una tarea muy simple. No entiendo nada el chino, su semántica, reglas gramaticales, etc. y si alguien en este foro que también entiende chino puede ayudarme con algunos conocimientos básicos y cómo se hace la coincidencia de patrones para el chino.
Tengo una percepción básica de que en chino una unidad (sin ningún espacio intermedio) en realidad puede significar más de una palabra (¿Es correcto?). Entonces, ¿hay alguna regla sobre cómo se combinan más de una palabra entre ellas para destacarse como una unidad? Es confuso porque hay espacios en la escritura china, incluso una unidad sin espacio tiene más de una palabra.
Cualquier enlace que explican china desde el punto de vista computacional, la coincidencia de patrones, etc sería muy útil ..
no lo entendí: los espacios se usan solo con puntuación? – xyz
Un carácter chino es * no * equivalente a una palabra en inglés; muchas palabras se componen de dos caracteres, como "guo1ji4", "internacional". Además, un carácter chino puede significar algo diferente dependiendo de los caracteres circundantes (contextualmente dependientes). –
+1 para nombre de usuario :) –