2011-07-15 35 views
11

Tengo una colección de oraciones, y necesito analizarlas para ver qué tan similares son.Algoritmo para comparar la similitud de las oraciones en inglés

¿Existen algoritmos establecidos para hacer esto?

cuidado de I:

  • que contiene las mismas palabras (ignorando de flexiones por ahora)
  • que contiene las mismas palabras en un orden similar

he utilizado Levenshtein distancia y n- gramos para deletrear antes, aunque no estoy del todo seguro si estos se traducen a mis propósitos.

Naively, "No me importan las diferencias ortográficas, los errores tipográficos se pueden tratar como palabras diferentes", aunque quizás sería bueno dar cuenta de esto.

quizá algún híbrido de partir la frase en espacios y uno de los algoritmos anteriores (u otros) sería un punto de partida

¿Qué opciones están disponibles? ¿Algún consejo?

Gracias!

Respuesta

13

This paper compara varias medidas de similitud de oraciones. Tal vez pueda usar uno de ellos tal cual o modificarlo para sus necesidades.

De lo contrario medida de similitud de oración es un término clave para google.

+1

hmmmmmmmm * kill bill beard stroke *. ¡Gracias! –

+0

@Andrew en realidad solo busqué en Google porque la pregunta despertó mi interés :) No estoy familiarizado con el tema ... Entiendo que su problema puede estar en los detalles técnicos, que en su mayoría son ignorados en ese documento (que sea ortografía- error-resitant, inflexions, etc. bueno que las palabras en inglés son inflexibles) – Szabolcs

Cuestiones relacionadas