Similitud de medición entre los conjuntos de documentos

Para fines ilustrativos, supongamos que se trata de un servicio de foro. Necesito para calcular la "similitud" entre los mensajes de cada usuario, por lo que el resultado sería algo así como:Similitud de medición entre los conjuntos de documentos

among posts by user A, similarity 60% 
among posts by user B, similarity 20% 
...

estoy tratando con cadenas multibyte, así que supongo que estoy atascado con los motores de búsqueda aquí. Ya usamos Solr, ya tenemos másLikeThis implementado, pero no estoy muy seguro de cómo construir la consulta. Cualquier ayuda apreciada!

Fuente

2011-05-20 jodeci

es necesario definir lo que se considera "similar" y cómo quiere modelarlo. Distancia Levenshtein? ¿Cadenas de Markov? –

En realidad, realmente no me importa, en el sentido de que estoy dispuesto a dejar que la característica más LikeTike de Solr decida por mí. Pero en lugar de la norma "consígueme más artículos como este, en función de esa puntuación de similitud que hace", lo que trato de hacer aquí es "obtener la puntuación de similitud entre estos artículos". – jodeci

pregunta extraña de dos maneras: 1. ¿Por qué tiene que lidiar con SOLR? 2. El tipo de similitud depende del problema objetivo. Tu pregunta me suena demasiado genérica. Hay investigaciones en el área de similitud semántica. Hay un algoritmo de edición de distancia, que es probablemente no es lo que quiere.

Por lo tanto, defina su pregunta con mayor precisión y obtendrá mejores respuestas.

Fuente

2011-07-27 20:30:00