¿Cómo calcular la precisión y la recuperación en la agrupación?

Estoy realmente confundido sobre cómo calcular la precisión y la recuperación en aplicaciones de agrupamiento.¿Cómo calcular la precisión y la recuperación en la agrupación?

I tienen la siguiente situación:

Dados dos conjuntos A y B. Mediante el uso de una clave única para cada elemento que pueda determinar cuál de los elementos de A y B partido. Quiero agrupar esos elementos en función de las características (sin usar la clave única, por supuesto).

Estoy haciendo la agrupación pero no estoy seguro de cómo calcular la precisión y la recuperación. Las fórmulas, de acuerdo con el documento "gráficos de rendimiento extendido para Cluster Retrieval" (http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf) son:

p = precisión = artículos recuperados pertinentes/artículos recuperados y r = de recuerdo = artículos recuperados pertinentes/artículos pertinentes

Realmente no entiendo qué elementos caen bajo qué categoría.

Lo que hice hasta ahora es que verifiqué dentro de los clusters cuántos pares coincidentes tengo (usando la clave única). ¿Es eso ya de precisión o recuerdo? Y si es así, ¿cuál es y cómo puedo calcular el otro?

Actualización: Acabo de encontrar otro documento con el título "Una F-Medida para la evaluación de la agrupación no supervisada con un número indeterminado de clústeres" en http://mtg.upf.edu/files/publications/unsuperf.pdf.

Fuente

2009-03-18 Christian Stade-Schuldt

Creo que usted encontrará que la wikipedia tiene un article on precision and recall útil. En resumen:

Precisión = verdaderos positivos/(verdaderos positivos + falsos positivos)

Recall = verdaderos positivos/(verdaderos positivies + falsos negativos)

Fuente

2009-03-23 15:13:33 theycallmemorty

Creo que hay un problema con sus definiciones.

La precisión y la recuperación son adecuadas para problemas de clasificación, que son básicamente problemas de dos clústeres. Si se hubiera agrupado en algo así como "artículos buenos" (= artículos recuperados) y "artículos malos" (= artículos no recuperados), entonces su definición tendría sentido.

En su caso, calculó el porcentaje de agrupamiento correcto de todos los elementos, lo que es algo así como precisión, pero no realmente porque, como dije, las definiciones no se aplican.

Fuente

2009-03-18 12:00:03 daphshez

puede comprobar que esta cuestión también? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG

Lo que hago de este problema es:

Uno de los conjuntos A y B es el "positivo". Lets supongamos que A es positivo

Teniendo en cuenta que para un elemento de A en un clúster

elemento coincidente de B está en el mismo grupo. es un verdadero positivo
elemento coincidente de B no está en el mismo clúster. es un falso negativo
elemento no coincidente de B está en el mismo clúster. es un falso positivo
elemento no coincidente de B no está en el mismo clúster. es un verdadero negativo

Entonces sólo tiene que utilizar

de precisión = verdaderos positivos/(verdaderos positivos + falsos positivos)

Recall = verdaderos positivos/(verdaderos positivies + falsos negativos) como se ha mencionado por alguien

Fuente

2009-03-30 12:43:16 Midhat

Consulte "Introducción a la recuperación de información", capítulo 18 (Agrupación de datos), para conocer las formas de evaluar los algoritmos de agrupamiento. http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

Esta sección del libro también puede resultar útil, ya que analiza las métricas tales como la precisión y recordar: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

Fuente

2009-03-30 12:47:04 SquareCog

ty para la respuesta ¿puede verificar esta pregunta también? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG

Hay varias otras medidas de validez clúster que he estado usando en algunas investigaciones I' he estado haciendo para acceder a los métodos de agrupamiento. En los casos en que tenga un conjunto de datos etiquetados con clases (agrupamiento supervisado), puede usar la precisión y la recuperación como se mencionó anteriormente, o la pureza y la entropía.

pureza de un clúster = el número de ocurrencias de la clase más frecuente/el tamaño de la agrupación (esto debería ser alto)

entropía de un clúster = una medida de cómo las clases dispersa son con un racimo (esto debería ser bajo)

En los casos donde no tiene las etiquetas de clase (agrupamiento no supervisado), las similitudes intra e inter son buenas medidas.

similitud intra-grupo para un solo grupo = promedio de similitud coseno de todos los pares dentro de un grupo (esto debería ser alto)

similitud

Inter-cluster para un clúster único = sim promedio coseno de todos los artículos en un clúster en comparación con todos los elementos en cualquier otro grupo (esto debería ser bajo)

Este documento tiene algunas buenas descripciones de estas cuatro medidas. http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

Buen enlace con la F-medida no supervisada, estoy investigando eso ahora mismo.

Fuente

2009-04-30 16:20:15

¿Es realmente "una medida F no supervisada", o "supervisada"? ¿F-measure "(que necesita que se calcule la verdad del terreno) que se acaba de utilizar para evaluar la agrupación no supervisada? – shn

Si se tiene en cuenta uno de los conjuntos, dicen A, como agrupación de oro y el otro conjunto (B) como una salida de su proceso de agrupamiento, (exacta) valores de precisión y la recuperación se puede estimar como:

Precision = (Número de elementos comunes a a y B)/(número de elementos en B)

Recall = (Número de elementos comunes a a y B)/(número de elementos en a)

A partir de estas medidas F estándar se puede estimar también.

Fuente

2012-06-26 14:25:50 user1483031

No es tan fácil. A y B son diferentes * particiones * del conjunto de datos, no partes individuales. Por lo general, tanto A como B solo contienen el conjunto completo de datos. Por lo tanto, no puede usar los * elementos *. Lo que puede hacer es utilizar todos los * pares * de objetos, donde existe un par en un clúster si y solo si ambos elementos están en el * mismo * clúster. –

El problema con la precisión y el recuerdo es que generalmente requieren que tengas una idea de cuáles son las etiquetas "verdaderas", mientras que en muchos casos (y en tu descripción) no conoces las etiquetas, pero ya sabes la partición para comparar.Yo te sugeriría que el índice ajustado Rand quizá:

http://en.wikipedia.org/wiki/Rand_index

Fuente

2012-08-01 15:43:12

¿Cómo calcular la precisión y la recuperación en la agrupación?

Respuesta

Cuestiones relacionadas