Estoy realmente confundido sobre cómo calcular la precisión y la recuperación en aplicaciones de agrupamiento.¿Cómo calcular la precisión y la recuperación en la agrupación?
I tienen la siguiente situación:
Dados dos conjuntos A y B. Mediante el uso de una clave única para cada elemento que pueda determinar cuál de los elementos de A y B partido. Quiero agrupar esos elementos en función de las características (sin usar la clave única, por supuesto).
Estoy haciendo la agrupación pero no estoy seguro de cómo calcular la precisión y la recuperación. Las fórmulas, de acuerdo con el documento "gráficos de rendimiento extendido para Cluster Retrieval" (http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf) son:
p = precisión = artículos recuperados pertinentes/artículos recuperados y r = de recuerdo = artículos recuperados pertinentes/artículos pertinentes
Realmente no entiendo qué elementos caen bajo qué categoría.
Lo que hice hasta ahora es que verifiqué dentro de los clusters cuántos pares coincidentes tengo (usando la clave única). ¿Es eso ya de precisión o recuerdo? Y si es así, ¿cuál es y cómo puedo calcular el otro?
Actualización: Acabo de encontrar otro documento con el título "Una F-Medida para la evaluación de la agrupación no supervisada con un número indeterminado de clústeres" en http://mtg.upf.edu/files/publications/unsuperf.pdf.
puede comprobar que esta cuestión también? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG