7 votos

¿Por qué la F-medida más popular de precisión?

F-medida, la media armónica de la memoria y la precisión y la exactitud, la proporción de verdaderos positivos y los negativos para todos los casos, son dos maneras de evaluar la calidad de un modelo dicotómico.

Parece que siempre que hay una tabla de contingencia de 2x2 para evaluar, en la teoría o en la práctica, la primera cosa a utilizar es la de F-medida, y exactitud, si alguna vez se ha mencionado, es secundario.

A pesar de que siempre el uso de F-medida, me siento como la precisión es tanto más revelador acerca de un modelo (natural y equilibrado entre la prueba y el suelo de la verdad para ambos positivos y negativos) y más fácil de interpretar.

Aquí hay una tabla de contingencia de 2x2 para la referencia:

$$ \begin{array}{ccc} &\rm{Ground\ Truth}& \\ &\rm{True} & \rm{False} \\ \rm{Model} &&\\ \rm{Positive} & TP & FP \\ \rm{Negative} & FN & TN \end{array} $$

El F-medida se parece a un equilibrio entre el recuerdo y precisión:

$$F_1 = \frac{2}{\frac{1}{\rm{recall}} + \frac{1}{\rm{precision}}}$$

Ya que esto es algo opaco (cuando se busca en una tabla 2x2), cuando se puede obtener el más simple de cálculo:

$$ F_1 = \frac{2}{\frac{1}{\frac{TP}{TP+FN}} + \frac{1}{\frac{TP}{TP+FP}}} = \frac{2 TP}{2TP+FN+FP} $$

lo que muestra que $F_1$ ignora enteramente $TN$ en el numerador y arbitrariamente se duplica $TP$. Sin embargo, la precisión ya tiene el equilibrio justo en la parte superior; no importa cuán desigual que la incidencia es, exactitud sólo cuenta lo que es correcto:

$$\rm{acc} = \frac{TP+TN}{TP+FP+FN+TN}.$$

Hay una buena razón por la F-measure es favorecido por la precisión, por qué los Verdaderos Positivos son favorecidos sobre la Verdadera, ya sea Positivo o Negativo? $F_1$ parece desequilibrada. Es que TP es sólo que mucho más importante? Es que en su mayoría la cultura (personas que sólo han utilizado más)? ¿Cuáles son las propiedades de un modelo que podría llevar a ignorar la precisión y favoreciendo a los F-medida para la mayoría de las cosas? Es simplemente debido a la usual falta de instancias disponibles para Verdaderos Negativos?

6voto

Aksakal Puntos 11351

$F_1$ funciona mejor cuando te importa más para la clasificación de los raros positivos. $F_\beta$ es simplemente un promedio ponderado de la media armónica de dos positivos centrado medidas, es decir, la precisión y el recall. Al $\beta=1$ de precisión y recall son de igual peso en $F_1$, que es el más empleado en la práctica. Cuando es positivo y la tasa de incidencia es baja en la muestra de la capacidad de predicción de las métricas de rendimiento, tales como la precisión puede sentirse abrumado por las altas tasas de predicción en los negativos, lo cual puede ser realizado por overpredicting ellos en detrimento de los positivos.

Supongamos que está la clasificación de eventos raros, es decir, positivos en la tasa de la muestra es baja. Por lo tanto, realiza su modelo de marca de todo lo negativo. ¿Cuál será el rendimiento de los exámenes?

Veamos el caso en que los positivos son el 10% de la muestra de tamaño 100. Su "modelo" siempre salidas negativas. Realmente no es un modelo, por supuesto, pero vamos a ver qué pasa : TP = 0, FP = 0, TN = 90 y FN = 10.

$$ \begin{array}{|c|c|} \hline & \rm{True} & \rm{False} \\ \hline \rm{Positive} & TP = 0 & FP = 0 \\ \hline \rm{Negative} & FN = 10 & TN = 90 \\ \hline \end{array} $$

Obviamente, este "modelo" se perdió todos los positivos, pero la precisión es de 90/100 = 90%! Por Suerte, F1 = 0/10 = 0%.

Ahora comparar este rendimiento a un completamente al azar señalización de salidas con $(5+45)/100 =$ 50% positivo: TP = 5, FP =5, TN = 45 y FN = 45.

$$ \begin{array}{|c|c|} \hline & \rm{True} & \rm{False} \\ \hline \rm{Positive} & TP = 5 & FP = 5 \\ \hline \rm{Negative} & FN = 45 & TN = 45 \\ \hline \end{array} $$

Usted obtener precisión = 50/100 = 50%, y F1 = 10/60 = 17%. Oh, ¿qué pasó? El azar marca es menos precisa, a pesar de marcar la mitad de los positivos a la derecha en función de la "exactitud" de la medida, pero la F1 medida indica que es mejor que "siempre neg modelo".

Un maniquí modelo que marca todo lo que es positivo en este ejemplo producirá TP = 10, FP =90, TN = 0 y FN = 0.

$$ \begin{array}{|c|c|} \hline & \rm{True} & \rm{False} \\ \hline \rm{Positive} & TP = 10 & FP = 90 \\ \hline \rm{Negative} & FN = 0 & TN = 0 \\ \hline \end{array} $$

Por lo tanto, su precisión = 10/100 = 10%, mientras que F1 = 20/110 = 18%.

Los tres modelos no son realmente modelos. Ellos pueden ser usados como punto de referencia al comparar a los modelos reales.


He aquí otra comparación, entre los dos modelos.

Supongamos que usted construyó un modelo real de Una y produjo las siguientes métricas: TP = 9, FP =5, TN = 85 y FN = 1.

$$ \begin{array}{|c|c|} \hline & \rm{True} & \rm{False} \\ \hline \rm{Positive} & TP = 9 & FP = 5 \\ \hline \rm{Negative} & FN = 1 & TN = 85 \\ \hline \end{array} $$

Este modelo tendrá exactitud = 94/100 = 94% y F1= 18/24 = 75%.

A continuación, crear otro modelo B: TP = 8, FP =4, TN = 86 y FN = 2.

$$ \begin{array}{|c|c|} \hline & \rm{True} & \rm{False} \\ \hline \rm{Positive} & TP = 8 & FP = 4 \\ \hline \rm{Negative} & FN = 2 & TN = 86 \\ \hline \end{array} $$

La exactitud= 94/100 = 94% y F1= 16/22 = 73%.

La exactitud no captar la diferencia entre la a y la B, porque se preocupa igualmente por TP y TN, el modelo B se perdió uno de los más positivos, pero tomó una correcta negativo, por lo que su precisión es el mismo. F1 "no cuidado" para corregir los negativos, por lo que las capturas de la baja tasa de positivos en el modelo B.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X