Para fines ilustrativos, supongamos que se trata de un servicio de foro. Necesito para calcular la "similitud" entre los mensajes de cada usuario, por lo que el resultado sería algo así como:Similitud de medición entre los conjuntos de documentos
among posts by user A, similarity 60%
among posts by user B, similarity 20%
...
estoy tratando con cadenas multibyte, así que supongo que estoy atascado con los motores de búsqueda aquí. Ya usamos Solr, ya tenemos másLikeThis implementado, pero no estoy muy seguro de cómo construir la consulta. Cualquier ayuda apreciada!
es necesario definir lo que se considera "similar" y cómo quiere modelarlo. Distancia Levenshtein? ¿Cadenas de Markov? –
En realidad, realmente no me importa, en el sentido de que estoy dispuesto a dejar que la característica más LikeTike de Solr decida por mí. Pero en lugar de la norma "consígueme más artículos como este, en función de esa puntuación de similitud que hace", lo que trato de hacer aquí es "obtener la puntuación de similitud entre estos artículos". – jodeci