81 votos

¿Cómo interpretar los valores de la medida F?

Me gustaría saber cómo interpretar una diferencia de valores de medida f. Sé que la medida F es una media equilibrada entre la precisión y la memoria, pero me pregunto sobre el significado práctico de una diferencia en las medidas F.

Por ejemplo, si un clasificador C1 tiene una precisión de 0,4 y otro clasificador C2 una precisión de 0,8, entonces podemos decir que C2 ha clasificado correctamente el doble de ejemplos de prueba en comparación con C1. Sin embargo, si un clasificador C1 tiene una medida F de 0,4 para una determinada clase y otro clasificador C2 una medida F de 0,8, ¿qué podemos afirmar sobre la diferencia de rendimiento de los 2 clasificadores? ¿Podemos decir que C2 ha clasificado X más instancias correctamente que C1?

Lo siento si es una pregunta estúpida...

2 votos

No estoy seguro de que se pueda decir mucho, ya que la medida F es función tanto de la precisión como de la recuperación: es.wikipedia.org/wiki/F1_score . Sin embargo, se puede hacer el cálculo y mantener constante una de ellas (la precisión o el recuerdo) y decir algo sobre la otra.

75voto

DAT Puntos 26

No puedo pensar en un significado intuitivo de la medida F, porque es sólo una métrica combinada. Lo que es más intuitivo que la medida F, por supuesto, es la precisión y el recuerdo.

Pero con dos valores, a menudo no podemos determinar si un algoritmo es superior a otro. Por ejemplo, si un algoritmo tiene mayor precisión pero menor recall que otro, ¿cómo se puede saber qué algoritmo es mejor?

Si tienes un objetivo específico en tu mente como "La precisión es el rey". No me importa mucho el recuerdo", entonces no hay problema. Una mayor precisión es mejor. Pero si no tienes un objetivo tan marcado, querrás una métrica combinada. Esa es la medida F. Al utilizarla, comparará parte de la precisión y parte de la recuperación.

La curva ROC suele dibujarse indicando la medida F. Este artículo puede resultarle interesante, ya que contiene explicaciones sobre varias medidas, incluidas las curvas ROC: http://binf.gmu.edu/mmasso/ROC101.pdf

39voto

La importancia de la puntuación F1 es diferente según el escenario. Supongamos que la variable objetivo es una etiqueta binaria.

  • Clase equilibrada: En esta situación, la puntuación F1 puede ser efectivamente ignorada, la tasa de clasificación errónea es clave.
  • Clase desequilibrada, pero ambas clases son importantes: Si la distribución de las clases está muy sesgada (como 80:20 o 90:10), un clasificador puede obtener una tasa de clasificación errónea baja simplemente eligiendo la clase mayoritaria. En tal situación, elegiría el clasificador que obtuviera puntuaciones F1 altas en ambas clases, así como una tasa de clasificación errónea baja. Un clasificador que obtenga puntuaciones F1 bajas debería pasarse por alto.
  • Clase desequilibrada, pero una clase si es más importante que la otra. Por ejemplo, en la detección de fraudes, es más importante etiquetar correctamente una instancia como fraudulenta, que etiquetar la no fraudulenta. En este caso, elegiría el clasificador que tenga una buena puntuación F1 sólo en la clase importante . Recordemos que la puntuación F1 está disponible por clase.

14voto

Darnell Puntos 699

La medida F tiene un significado intuitivo. Le indica la precisión de su clasificador (cuántas instancias clasifica correctamente), así como su robustez (no falla un número significativo de instancias).

Con una alta precisión pero una baja recuperación, su clasificador es extremadamente preciso, pero pasa por alto un número significativo de instancias que son difíciles de clasificar. Esto no es muy útil.

Echa un vistazo a este histograma. enter image description here Ignora su propósito original.

Hacia la derecha, se obtiene una alta precisión, pero una baja recuperación. Si sólo selecciono instancias con una puntuación superior a 0,9, mis instancias clasificadas serán extremadamente precisas, pero habré pasado por alto un número significativo de instancias. Los experimentos indican que el punto óptimo está en torno a 0,76, donde la medida F es de 0,87.

1 votos

El último párrafo es engañoso. No existe el concepto de una puntuación "buena o mala" sin el contexto de dónde la estamos aplicando. En algunos casos, el 60% es el estado del arte, mientras que en otros, el 95% puede ser inaceptablemente bajo.

0 votos

Nota al margen: precisión y robusto(ness) también se utilizan con un significado muy diferente en validación y verificación (precisión se refiere a un error de tipo varianza [baja] y robusto se refiere a predicciones que no difieren mucho bajo algún factor de influencia). Así que gracias por la aclaración.

6voto

Curious Puntos 133

La medida F es la media armónica de la precisión y la recuperación. En la mayoría de las situaciones, existe un equilibrio entre la precisión y la recuperación. Si se optimiza el clasificador para aumentar una de ellas y perjudicar la otra, la media armónica disminuye rápidamente. Sin embargo, es mayor cuando la precisión y la recuperación son iguales.

Teniendo en cuenta las medidas F de 0,4 y 0,8 para sus clasificadores, se puede esperar que estos sean los valores máximos alcanzados al sopesar la precisión y la recuperación.

Para una referencia visual, vea esta figura de Wikipedia :

enter image description here

La medida F es H , A y B son el recuerdo y la precisión. Se puede aumentar una, pero la otra disminuye.

0 votos

La visualización de las "Escaleras cruzadas" me parece un poco más sencilla; para mí, hace más intuitiva la igualdad de A=B que da lugar a la mayor H

1 votos

No hay ninguna B en esa ilustración, ¿quieres decir b?

6voto

user191263 Puntos 8

Con la precisión en el eje Y y el recuerdo en el eje X, la pendiente de la curva de nivel $F_{\beta}$ en (1, 1) es $-1/\beta^2$ .

Dado $$P = \frac{TP}{TP+FP}$$ y $$R = \frac{TP}{TP+FN}$$ , dejemos que $\alpha$ sea la relación entre el coste de los falsos negativos y los falsos positivos. Entonces el coste total del error es proporcional a $$\alpha \frac{1-R}{R} + \frac{1-P}{P}.$$ Así, la pendiente de la curva de nivel en (1, 1) es $-\alpha$ . Por lo tanto, para los buenos modelos que utilizan el $F_{\beta}$ implica que considera los falsos negativos $\beta^2$ veces más costosos que los falsos positivos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X