Este es el problema: tengo unos pocos miles de pequeños fragmentos de texto, desde unas pocas palabras hasta unas pocas frases: el fragmento más grande es de aproximadamente 2k en el disco. Quiero poder comparar cada uno y calcular un factor de relación para poder mostrar la información relacionada con los usuarios.¿Cuáles son algunos buenos métodos para encontrar la "relación" de dos cuerpos de texto?
¿Cuáles son algunas buenas maneras de hacer esto? ¿Existen algoritmos conocidos para hacer esto que sean buenos, hay soluciones GPL, etc.?
No necesito que esto se ejecute en tiempo real, ya que puedo precalcular todo. Me preocupa más obtener buenos resultados que el tiempo de ejecución.
Solo pensé en preguntarle a la comunidad de Stack Overflow antes de ir y escribir lo mío. TIENE que haber personas que hayan encontrado buenas soluciones para esto antes.
Pregunta muy poco definida. ¿Sobre qué base considera que dos textos se relacionan entre sí? Temas comunes? Frases repetidas? ¿Longitud? ¿Complejidad? ¿Frecuencia de letras? –