Tengo dos archivos de subtítulos. Necesito una función que determina si representan el mismo texto, o el texto similarAlgoritmo de similitud de texto
A veces hay comentarios como "El viento sopla ... se reproduce la música" en un solo archivo. Pero el 80% por ciento de los contenidos será el mismo. La función debe devolver VERDADERO (los archivos representan el mismo texto). Y a veces hay errores ortográficos como 1 en lugar de l (uno - L) como aquí: Ella 1fuera del equipaje. Por supuesto, significa que la función debe devolver VERDADERO.
Mis comentarios:
La función debe devolver porcentaje de la similitud de los textos - ACUERDAN
"todo el pueblo estaba feliz" y "todas las personas que no estaban contentos" - aquí eso sería considerado como una error ortográfico, por lo que se consideraría el mismo texto. Para ser exactos, el porcentaje que devuelve la función será menor, pero lo suficientemente alto como para decir que las frases son similares
Considere si desea aplicar Levenshtein en un archivo completo o solo una cadena de búsqueda - no estoy seguro acerca de Levenshtein, pero el algoritmo debe aplicarse al archivo como un todo. Sin embargo, será una cadena muy larga.
La función debe devolver porcentaje de la similitud de los textos y usted decide el umbral para VERDADERO o FALSO. – YOU
Vas a tener que ser muy cuidadoso con tus criterios de similitud y creo que esta puede ser la parte más difícil de lo que estás tratando de hacer.Por ejemplo, "todas las personas estaban contentas" y "todas las personas no estaban contentas" son textualmente similares pero completamente opuestas en términos de significado. Algunos ejemplos de textos similares y diferentes pueden ser útiles. – glenatron
Consulte Soundex (http://en.wikipedia.org/wiki/Soundex) y vea si eso es algo que está buscando. –