Relevancia Solr - ¿Cómo hacer una prueba A/B para la calidad de búsqueda?

Estoy buscando realizar A/B en vivo y experimentos controlados uno al lado del otro para ayudar a entender cómo los cambios afectan la calidad de búsqueda. Voy a probar variables como boost value y fuzzyqueries.Relevancia Solr - ¿Cómo hacer una prueba A/B para la calidad de búsqueda?

¿Qué otras métricas se usan para determinar si los usuarios prefieren A frente a B? Aquí hay 2 métricas que encontré en línea ...

En Google Analytics, “% de abandono de búsqueda” es una métrica que puede utilizar para medir la calidad de su sitio de búsqueda de resultados
Otra forma para medir la calidad de búsqueda es medir el número de páginas de resultados de búsqueda que el visitante ve.

Fuente

2011-08-22 phpboy

La calidad de búsqueda es algo que no se puede medir fácilmente. Para medir la relevancia necesita tener un par de cosas:

Un competidor para medir la relevancia. Para su caso, la instancia diferente de su motor de búsqueda serán los competidores entre sí. Me refiero a que una instancia del motor de búsqueda tendría el algoritmo básico en ejecución, el otro con fuzzy habilitado, otro con fuzzy y boosting, y así sucesivamente.
Tienes que calificar manualmente los resultados. Puede pedirle a sus colegas que califiquen los pares consulta/url para consultas populares y luego para los huecos (es decir, el par query/url no calificado puede tener alguna función de clasificación dinámica usando el algoritmo "Learning to Rank" http://en.wikipedia.org/wiki/Learning_to_rank. No se sorprenda, pero thats de verdad (por favor, lea a continuación de un ejemplo de Google/Bing).

Google y Bing son competidores en el mercado de búsqueda horizontal. Estos motores de búsqueda emplean jueces manuales de todo el mundo e invierten millones en ellos, y vota sus resultados para las consultas. Por lo tanto, para cada consulta/url, generalmente se clasifican los mejores 3 o los 5 principales. Según estas clasificaciones, pueden usar una métrica como NDCG (ganancia acumulada descontada normalizada), que es una de las mejores métricas y la de el más popular.

According to wikipedia:

ganancia acumulada actualizado (DCG) es una medida de la eficacia de un motor de búsqueda Web> algoritmo o aplicaciones relacionadas, a menudo utilizado en la recuperación de información. Utilizando una escala de relevancia clasificada de documentos en un conjunto de resultados de motor de búsqueda, DCG mide la utilidad, o la ganancia, de un documento en función de su posición en la lista de resultados. La ganancia se acumula> desde la parte superior de la lista de resultados hasta la parte inferior con la ganancia de cada resultado descontado en> rangos inferiores.

Wikipedia explica NDCG de una manera excelente. Es un breve artículo, por favor revisa eso.

Como ha mencionado, también puede hacer clic a través de la tasa/datos, donde tiene un poco de sabiduría de algoritmo multitud y ajustar la relevancia en función de eso. Es una muy buena salida, pero atrae el correo no deseado. Por lo tanto, debe combinarse con alguna medida como NDCG/MAP, etc. para resolver su problema de relevancia.

Puedo proporcionar más detalles sobre esto si aún necesita saber más sobre cómo funciona todo el conjunto de elementos en su caso de estudio.

Fuente

2011-08-24 09:24:08 Yavar

Relevancia Solr - ¿Cómo hacer una prueba A/B para la calidad de búsqueda?

Respuesta

Cuestiones relacionadas