23 votos

¿Cuál es el umbral óptimo F1? ¿Cómo se calcula?

He utilizado la función h2o.glm() en R, que proporciona una tabla de contingencia en el resultado junto con otros estadísticos. La tabla de contingencia se titula " Tabulación cruzada basada en F1 Umbral óptimo "

Wikipedia define la puntuación F1 o puntuación F como la media armónica de la precisión y la recuperación. Pero, ¿la precisión y la recuperación no se obtienen únicamente cuando el resultado de los valores predichos de una regresión logística (por ejemplo) se transforma en binario mediante un punto de corte?

Ahora por corte recuerdo, cuál es la conexión entre la Puntuación F1 y el Umbral Óptimo. ¿Cómo se calcula el umbral óptimo? ¿Cómo se calcula el umbral óptimo de F1?

Lo siento si me he perdido algo, soy nuevo en esto de las estadísticas.

34voto

cmckendry Puntos 224

De hecho, escribí mi primer artículo de aprendizaje automático sobre este tema. En él, identificamos que cuando tu clasificador emite probabilidades calibradas (como deberían para la regresión logística) el umbral óptimo es aproximadamente la mitad de la puntuación F1 que alcanza. Esto te da alguna intuición. El umbral óptimo nunca será superior a 0,5. Si su F1 es 0,5 y el umbral es 0,5, entonces debería esperar mejorar la F1 reduciendo el umbral. Por otro lado, si la F1 fuera 0,5 y el umbral fuera 0,1, probablemente debería aumentar el umbral para mejorar la F1.

El documento con todos los detalles y un análisis de por qué F1 puede o no ser una buena medida para optimizar (tanto en el caso de una sola etiqueta como en el de varias) se puede encontrar aquí:

https://arxiv.org/abs/1402.1892

Siento que este post haya tardado 9 meses en llegar a mis manos. Espero que la información le siga resultando útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X