2011-10-02 8 views
10

Esta pregunta involucra informática y conocimiento de chino. Tengo consultas en chino y tengo una lista separada de frases en chino. Necesito poder encontrar cuál de estas consultas tiene alguna de estas frases.¿Cómo funciona la tokenización y la coincidencia de patrones en chino?

En inglés, es una tarea muy simple. No entiendo nada el chino, su semántica, reglas gramaticales, etc. y si alguien en este foro que también entiende chino puede ayudarme con algunos conocimientos básicos y cómo se hace la coincidencia de patrones para el chino.

Tengo una percepción básica de que en chino una unidad (sin ningún espacio intermedio) en realidad puede significar más de una palabra (¿Es correcto?). Entonces, ¿hay alguna regla sobre cómo se combinan más de una palabra entre ellas para destacarse como una unidad? Es confuso porque hay espacios en la escritura china, incluso una unidad sin espacio tiene más de una palabra.

Cualquier enlace que explican china desde el punto de vista computacional, la coincidencia de patrones, etc sería muy útil ..

+0

no lo entendí: los espacios se usan solo con puntuación? – xyz

+2

Un carácter chino es * no * equivalente a una palabra en inglés; muchas palabras se componen de dos caracteres, como "guo1ji4", "internacional". Además, un carácter chino puede significar algo diferente dependiendo de los caracteres circundantes (contextualmente dependientes). –

+0

+1 para nombre de usuario :) –

Respuesta

10

que tengo una percepción básica de que en chino una unidad (sin ningún espacio entre ellos) en realidad puede significar más de una palabra (¿es correcto?).

En espacios chinas rara vez se utilizan, por ejemplo:.

递归(英语:Recursion), 又 譯為 遞 迴, 在 数学 与 计算机 科学 中, 是 指 在 函数 的 定义 中 使用 函数 自身 的 方法 递归一词 还 较 常用 于 描述 以 自 相似 方法 重复 事物 的 过程. 例如, 当 两面 镜子 相互 之间 近似 平行 时, 镜 中 嵌套 的 图像 是以 无限 递归 的 形式 出现 的.

Usted Notaré que los espacios en realidad son solo caracteres de puntuación chinos, que solo tienen más relleno de lo habitual.

Existen reglas sobre cómo se combinan más de una palabra entre sí para destacarse como una unidad. Es confuso porque hay espacios en la escritura china, incluso una unidad sin espacio tiene más de una palabra.

creo que de esta manera: un carácter chino es muy, muy aproximadamente similar a una palabra Inglés. Muchas veces, dos o más caracteres necesitan combinarse para formar una palabra, y cada carácter separado puede significar algo completamente diferente según el contexto.

Para simbolizar significativamente el texto chino, tendría que segmentar las palabras tomando eso en consideración.

Consulte Chinese Natural Language Processing and Speech Processing, del grupo Stanford NLP.

+0

¿Y el downvote es para? – NullUserException

+0

Este voto no es mío. Encuentro tu respuesta muy útil :-) – xyz

+0

Tal vez desde antes de editar para incluir las cosas que dije en mis comentarios; era malo antes de las ediciones. –

Cuestiones relacionadas