2008-10-07 11 views
19

Al desarrollar una base de datos de artículos en una Base de conocimiento (por ejemplo), ¿cuáles son las mejores formas de ordenar y mostrar las respuestas más relevantes a la pregunta de un usuario?Algoritmos de clasificación/relevancia de búsqueda

¿Utilizaría datos adicionales como la ponderación de las palabras clave en función de si los usuarios anteriores encontraron el artículo de ayuda, o cree que es suficiente con un algoritmo simple de concordancia de palabras clave?

Respuesta

2

Esa es una pregunta difícil, y las empresas como Google están haciendo un gran esfuerzo para abordar esta cuestión. Eche un vistazo a Google Enterprise Search Appliance o Exalead Enterprise Search.

Entonces, como opinión personal, no creo que ningún enfoque "ingenuo" vaya a mejorar mucho el resultado en comparación con la búsqueda ingenua de palabras clave y el ordenamiento por el número de visitas en los documentos.

Si tiene la posibilidad de exponer su base de conocimientos a la web, simplemente hágalo y deje que su motor de búsqueda favorito se encargue de la búsqueda.

0

concordancia de palabras clave no es suficiente cuando se trata de preguntas, es necesario entender la intención, como dicen joannes un tema muy caliente en busca

2

Un poco más de la especificidad de su problema exacto sería bueno. Hay muchas técnicas diferentes que puedes usar. Muchos de estos son impulsados ​​por otros datos. Por supuesto, puede usar Lucene y crear sus propios índices. Hay enlaces para muchos idiomas a lucene. Avanzando hacia arriba también está el proyecto Solr que es Lucene con muchas herramientas y funcionalidad adicional a su alrededor. Eso puede estar más en la línea de lo que estás buscando.

La intención es engañosa y los motores de búsqueda más modernos confían en la intención estadística para ayudar en el orden de los resultados. Siempre puede tener un botón útil para este artículo y almacenar el texto de consulta que conduce a documentos útiles. Luego, podría agregar una capa de información al índice para impulsar palabras o frases específicas y ayudarlas a señalar ciertos documentos.

Algunas cosas en que pensar ... ¿Cuántos documentos? ¿Cuál es la duración promedio? ¿Se actualizan con frecuencia? ¿Qué hacen los usuarios con los documentos? ¿Cómo se ve la propagación de palabras únicas a los documentos? (Más simplemente, es fácil hacer coincidir una consulta con un documento específico basado en características únicas comunes).

Si está en la web, siempre puede hacer un motor de búsqueda personalizado de Google que solo busque en su sitio aunque usted puede encontrar esto como subóptimo por una variedad de razones.

Siempre puede comenzar con un índice simple y gradualmente hacerlo más sofisticado hablando con los usuarios y capturando datos.

10

Tal vez el método más sencillo y más ingenua que dará inmediatamente resultados útiles sería implementar *tf-idf:

variaciones del esquema de ponderación TF-IDF menudo son utilizados por los motores de búsqueda como una herramienta central en anotaciones y clasificando la relevancia de un documento dada una consulta de usuario. tf-idf se puede utilizar con éxito para el filtrado de palabras prohibidas en diversos campos temáticos, incluido el resumen y la clasificación del texto.

En una pregunta relacionada mío reciente aquí supe de un excelente libro gratis sobre este tema, que se puede descargar o leer en línea:

An Introduction to Information Retrieval

1

Creo que el ángulo de aquí no es la recuperación en sí misma ... se trata de anotar la relevancia de la información recuperada (un enfoque más reactivo y pasivo) que luego se puede utilizar para mejorar el motor de búsqueda.

supongo que se puede tratar -

  1. KNN en TFIDF para recuperar información

  2. mano etiquetar estos datos recuperados de un relevency puntuación

  3. Entonces regresión que la puntuación para predecir el resultado de una desentrañar el resultado de la búsqueda y ordenarlo.

Sólo un pensamiento ...

El tercer punto se basa realmente en el algoritmo Rocchio. Usted puede verlo here

Cuestiones relacionadas