La calidad de búsqueda es algo que no se puede medir fácilmente. Para medir la relevancia necesita tener un par de cosas:
Un competidor para medir la relevancia. Para su caso, la instancia diferente de su motor de búsqueda serán los competidores entre sí. Me refiero a que una instancia del motor de búsqueda tendría el algoritmo básico en ejecución, el otro con fuzzy habilitado, otro con fuzzy y boosting, y así sucesivamente.
Tienes que calificar manualmente los resultados. Puede pedirle a sus colegas que califiquen los pares consulta/url para consultas populares y luego para los huecos (es decir, el par query/url no calificado puede tener alguna función de clasificación dinámica usando el algoritmo "Learning to Rank" http://en.wikipedia.org/wiki/Learning_to_rank. No se sorprenda, pero thats de verdad (por favor, lea a continuación de un ejemplo de Google/Bing).
Google y Bing son competidores en el mercado de búsqueda horizontal. Estos motores de búsqueda emplean jueces manuales de todo el mundo e invierten millones en ellos, y vota sus resultados para las consultas. Por lo tanto, para cada consulta/url, generalmente se clasifican los mejores 3 o los 5 principales. Según estas clasificaciones, pueden usar una métrica como NDCG (ganancia acumulada descontada normalizada), que es una de las mejores métricas y la de el más popular.
According to wikipedia:
ganancia acumulada actualizado (DCG) es una medida de la eficacia de un motor de búsqueda Web> algoritmo o aplicaciones relacionadas, a menudo utilizado en la recuperación de información. Utilizando una escala de relevancia clasificada de documentos en un conjunto de resultados de motor de búsqueda, DCG mide la utilidad, o la ganancia, de un documento en función de su posición en la lista de resultados. La ganancia se acumula> desde la parte superior de la lista de resultados hasta la parte inferior con la ganancia de cada resultado descontado en> rangos inferiores.
Wikipedia explica NDCG de una manera excelente. Es un breve artículo, por favor revisa eso.
Como ha mencionado, también puede hacer clic a través de la tasa/datos, donde tiene un poco de sabiduría de algoritmo multitud y ajustar la relevancia en función de eso. Es una muy buena salida, pero atrae el correo no deseado. Por lo tanto, debe combinarse con alguna medida como NDCG/MAP, etc. para resolver su problema de relevancia.
Puedo proporcionar más detalles sobre esto si aún necesita saber más sobre cómo funciona todo el conjunto de elementos en su caso de estudio.