Quiero resolver el problema de división de palabras (palabras de análisis de cadena larga sin espacios). Por ejemplo, queremos extraer palabras de somelongword
a [some, long, word]
.Enfoque estadístico de división de palabras
Podemos lograr esto mediante un enfoque dinámico con el diccionario, pero otro problema que encontramos es analizar la ambigüedad. Es decir. orcore
=>or core
o orc ore
(No tomamos en cuenta el significado de la frase o parte del discurso). Entonces pienso en el uso de algún enfoque estadístico o ML.
Descubrí que el algoritmo Naive Bayes y Viterbi con el conjunto de trenes se puede usar para resolver esto. ¿Puede indicarme alguna información sobre la aplicación de estos algoritmos al problema de división de palabras?
UPD: He aplicado este método en Clojure, el uso de algunos consejos de Peter Norvig de code
Gracias, buen punto de partida. Encontré muchos fragmentos de código útiles en el sitio de Peter Norvig. – mishadoff
La presentación de diapositivas se ha eliminado por alguna razón. –