2010-07-23 9 views
6

Estoy tratando de medir el rendimiento de un programa de visión artificial que intenta detectar objetos en video. Tengo 3 versiones diferentes del programa que tienen diferentes parámetros. He evaluado cada una de estas versiones y obtuve 3 pares de (Porcentaje falso positivo, Porcentaje negativo falso).Cómo combinar falsos positivos y falsos negativos en una sola medida

Ahora quiero comparar las versiones entre sí y luego me pregunto si tiene sentido combinar falsos positivos y falsos negativos en un solo valor y usar eso para hacer la comparación. por ejemplo, tome la ecuación falsePositives/falseNegatives y vea cuál es más pequeña.

+0

Si fuera usted, haría todas. – leppie

Respuesta

3

Un par de otras soluciones posibles:

-Su tasa de falsos positivos (fp) y tasa de falsos negativos (fn) puede depender de un umbral.Si traza la curva donde el valor y es (1-fn), y el valor x es (fp), estará trazando la curva Receptor-Operador-Característica (ROC). El área bajo la curva ROC (AUC) es una medida popular de calidad.

-AUC puede ponderarse si hay ciertas regiones de interés

-Informe de la Tasa de Igual-error. Para algún umbral, fp = fn. Reportar este valor

1

Depende de la cantidad de detalles que desee en la comparación.

La combinación de las dos figuras le dará un sentido general de margen de error pero no tiene idea de qué tipo de error, de modo que si solo quiere saber qué es "más correcto" en general, está bien.

Si, por otro lado, en realidad quiere usar los resultados para una determinación más profunda de si el proceso es adecuado para un problema en particular, entonces me imagino que mantenerlos separados es una buena idea. p. A veces, los falsos negativos son un problema muy diferente a los falsos positivos en un entorno del mundo real. ¿El robot simplemente evitó un objeto que no estaba allí ... o no se dio cuenta de que se dirigía al lado de un acantilado?

En resumen, no existe una regla global sólida y rápida para determinar la eficacia de la visión en función de un supercalculo. Todo se reduce a lo que planeas hacer con la información que es lo más importante.

1

Debe tener en cuenta la importancia de los falsos positivos "importantes" en relación con los falsos negativos.

Por ejemplo, si su programa está diseñado para reconocer las caras de las personas, tanto los falsos positivos como los falsos negativos son igualmente inofensivos y probablemente solo los pueda combinar linealmente.

Pero si su programa fue diseñado para detectar bombas, entonces los falsos positivos no son un gran problema (es decir, decir "esto es una bomba" cuando en realidad no es) sino falsos negativos (es decir, decir "esto no es una bomba "cuando en realidad es es) sería catastrófico.

+0

Ok, entonces tiene sentido. ¿Hay algún parámetro definido para combinar estos dos valores? – dnul

1

Bueno, una forma convencional es asignar un peso a cada uno de los dos tipos de eventos (por ejemplo, un entero para indicar la importancia relativa de cada uno para la validación del modelo). Entonces,

  • multiplicar cada instancia por el factor de ponderación apropiado;

  • y luego cuadrarlos;

  • suma los términos;

  • sacar la raíz cuadrada

Esto le deja con un único número - algo "error total".

+0

¡genial! ¿Puedes hacerme referencia a un papel donde lo hacen? – dnul

6

Además de la popular Area Under the ROC Curve (AUC) medida mencionada por @alchemist-al, hay una puntuación que combina tanto precisión y recuerdo (que se define en términos de TP/FP/TN/FN) llama la F-measure que va desde 0 a 1 (donde 0 es el peor, el mejor 1):

F-measure = 2*precision*recall/(precision+recall) 

donde

precision = TP/(TP+FP) , recall = TP/(TP+FN) 
1

Si desea maximizar b OTH los verdaderos positivos y los negativos verdaderos que pueden utilizar la eficiencia diagnóstica: Eficiencia

diagnóstico = Sensibilidad Especificidad *

Dónde ...

Sensibilidad = TP/(TP + FN)

Especificidad = TN/(TN + FP)

(TP = número de verdaderos positivos, FN = número de falsos negativos, TN = número de verdaderos negativos, FP = número de falsos positivos)

Esta métrica funciona bien para conjuntos de datos que tienen un número de clases desequilibrado (es decir, el conjunto de datos está sesgado)

Cuestiones relacionadas