He estado trabajando en Java para encontrar la similitud entre dos documentos. Prefiero encontrar similitud semántica, pero aún no he hecho esfuerzos para encontrarla. Estoy usando el siguiente enfoque.Python vs Java para procesamiento de lenguaje natural
- términos extraer/fichas (estoy usando JAWS con wordnet para eliminar los sinónimos de este modo mejora las similitudes)
- crea una matriz documento término
- LSA
- coseno similitud
Cuando i estaba mirando algunas páginas de stackoverflow, obtuve bastantes enlaces a las implementaciones de Python.
me gustaría saber si Python es un lenguaje mejor encontrar la similitud de texto y también me gustaría saber si puedo encontrar similairty semántica entre dos documentos en Python
Todo lo que puede hacer en Python, también lo puede hacer en Java (con suficiente trabajo). Dicho esto, existe [Natural Language Toolkit] (http://www.nltk.org/) que es una biblioteca de Python que proporciona muchas herramientas para el procesamiento del lenguaje natural. –