Tengo una colección de oraciones, y necesito analizarlas para ver qué tan similares son.Algoritmo para comparar la similitud de las oraciones en inglés
¿Existen algoritmos establecidos para hacer esto?
cuidado de I:
- que contiene las mismas palabras (ignorando de flexiones por ahora)
- que contiene las mismas palabras en un orden similar
he utilizado Levenshtein distancia y n- gramos para deletrear antes, aunque no estoy del todo seguro si estos se traducen a mis propósitos.
Naively, "No me importan las diferencias ortográficas, los errores tipográficos se pueden tratar como palabras diferentes", aunque quizás sería bueno dar cuenta de esto.
quizá algún híbrido de partir la frase en espacios y uno de los algoritmos anteriores (u otros) sería un punto de partida
¿Qué opciones están disponibles? ¿Algún consejo?
Gracias!
hmmmmmmmm * kill bill beard stroke *. ¡Gracias! –
@Andrew en realidad solo busqué en Google porque la pregunta despertó mi interés :) No estoy familiarizado con el tema ... Entiendo que su problema puede estar en los detalles técnicos, que en su mayoría son ignorados en ese documento (que sea ortografía- error-resitant, inflexions, etc. bueno que las palabras en inglés son inflexibles) – Szabolcs