2009-03-18 15 views
7

Estoy realmente confundido sobre cómo calcular la precisión y la recuperación en aplicaciones de agrupamiento.¿Cómo calcular la precisión y la recuperación en la agrupación?

I tienen la siguiente situación:

Dados dos conjuntos A y B. Mediante el uso de una clave única para cada elemento que pueda determinar cuál de los elementos de A y B partido. Quiero agrupar esos elementos en función de las características (sin usar la clave única, por supuesto).

Estoy haciendo la agrupación pero no estoy seguro de cómo calcular la precisión y la recuperación. Las fórmulas, de acuerdo con el documento "gráficos de rendimiento extendido para Cluster Retrieval" (http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf) son:

p = precisión = artículos recuperados pertinentes/artículos recuperados y r = de recuerdo = artículos recuperados pertinentes/artículos pertinentes

Realmente no entiendo qué elementos caen bajo qué categoría.

Lo que hice hasta ahora es que verifiqué dentro de los clusters cuántos pares coincidentes tengo (usando la clave única). ¿Es eso ya de precisión o recuerdo? Y si es así, ¿cuál es y cómo puedo calcular el otro?

Actualización: Acabo de encontrar otro documento con el título "Una F-Medida para la evaluación de la agrupación no supervisada con un número indeterminado de clústeres" en http://mtg.upf.edu/files/publications/unsuperf.pdf.

Respuesta

9

Creo que usted encontrará que la wikipedia tiene un article on precision and recall útil. En resumen:

Precisión = verdaderos positivos/(verdaderos positivos + falsos positivos)

Recall = verdaderos positivos/(verdaderos positivies + falsos negativos)

1

Creo que hay un problema con sus definiciones.

La precisión y la recuperación son adecuadas para problemas de clasificación, que son básicamente problemas de dos clústeres. Si se hubiera agrupado en algo así como "artículos buenos" (= artículos recuperados) y "artículos malos" (= artículos no recuperados), entonces su definición tendría sentido.

En su caso, calculó el porcentaje de agrupamiento correcto de todos los elementos, lo que es algo así como precisión, pero no realmente porque, como dije, las definiciones no se aplican.

+0

puede comprobar que esta cuestión también? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG

2

Lo que hago de este problema es:

Uno de los conjuntos A y B es el "positivo". Lets supongamos que A es positivo

Teniendo en cuenta que para un elemento de A en un clúster

  1. elemento coincidente de B está en el mismo grupo. es un verdadero positivo
  2. elemento coincidente de B no está en el mismo clúster. es un falso negativo
  3. elemento no coincidente de B está en el mismo clúster. es un falso positivo
  4. elemento no coincidente de B no está en el mismo clúster. es un verdadero negativo

Entonces sólo tiene que utilizar

de precisión = verdaderos positivos/(verdaderos positivos + falsos positivos)

Recall = verdaderos positivos/(verdaderos positivies + falsos negativos) como se ha mencionado por alguien

1

Consulte "Introducción a la recuperación de información", capítulo 18 (Agrupación de datos), para conocer las formas de evaluar los algoritmos de agrupamiento. http://nlp.stanford.edu/IR-book/html/htmledition/flat-clustering-1.html

Esta sección del libro también puede resultar útil, ya que analiza las métricas tales como la precisión y recordar: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

+0

ty para la respuesta ¿puede verificar esta pregunta también? http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG

8

Hay varias otras medidas de validez clúster que he estado usando en algunas investigaciones I' he estado haciendo para acceder a los métodos de agrupamiento. En los casos en que tenga un conjunto de datos etiquetados con clases (agrupamiento supervisado), puede usar la precisión y la recuperación como se mencionó anteriormente, o la pureza y la entropía.

pureza de un clúster = el número de ocurrencias de la clase más frecuente/el tamaño de la agrupación (esto debería ser alto)

entropía de un clúster = una medida de cómo las clases dispersa son con un racimo (esto debería ser bajo)

En los casos donde no tiene las etiquetas de clase (agrupamiento no supervisado), las similitudes intra e inter son buenas medidas.

similitud intra-grupo para un solo grupo = promedio de similitud coseno de todos los pares dentro de un grupo (esto debería ser alto)

similitud

Inter-cluster para un clúster único = sim promedio coseno de todos los artículos en un clúster en comparación con todos los elementos en cualquier otro grupo (esto debería ser bajo)

Este documento tiene algunas buenas descripciones de estas cuatro medidas. http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf

Buen enlace con la F-medida no supervisada, estoy investigando eso ahora mismo.

+0

¿Es realmente "una medida F no supervisada", o "supervisada"? ¿F-measure "(que necesita que se calcule la verdad del terreno) que se acaba de utilizar para evaluar la agrupación no supervisada? – shn

0

Si se tiene en cuenta uno de los conjuntos, dicen A, como agrupación de oro y el otro conjunto (B) como una salida de su proceso de agrupamiento, (exacta) valores de precisión y la recuperación se puede estimar como:

Precision = (Número de elementos comunes a a y B)/(número de elementos en B)

Recall = (Número de elementos comunes a a y B)/(número de elementos en a)

A partir de estas medidas F estándar se puede estimar también.

+1

No es tan fácil. A y B son diferentes * particiones * del conjunto de datos, no partes individuales. Por lo general, tanto A como B solo contienen el conjunto completo de datos. Por lo tanto, no puede usar los * elementos *. Lo que puede hacer es utilizar todos los * pares * de objetos, donde existe un par en un clúster si y solo si ambos elementos están en el * mismo * clúster. –

1

El problema con la precisión y el recuerdo es que generalmente requieren que tengas una idea de cuáles son las etiquetas "verdaderas", mientras que en muchos casos (y en tu descripción) no conoces las etiquetas, pero ya sabes la partición para comparar.Yo te sugeriría que el índice ajustado Rand quizá:

http://en.wikipedia.org/wiki/Rand_index

Cuestiones relacionadas