18 votos

Prueba de significación basada en la precisión/recuperación/F1

¿Es posible hacer una prueba de significación basada únicamente en las puntuaciones de precisión/recuerdo/F1?

Por ejemplo, si en un artículo se encuentran dos sistemas de los que sólo se informa de P/R/F1 (en el mismo conjunto de datos, etc.), ¿se puede realizar una prueba de significación estadística? En caso afirmativo, ¿cómo se hace?

6voto

Andre Puntos 26

Intuitivamente, conseguir un P/R/F1 alto en un conjunto de datos pequeño, o en un conjunto de datos muy uniforme/predecible es probablemente más fácil que conseguir un P/R/F1 alto en conjuntos de datos más grandes o más caóticos. Por lo tanto, una mejora de P/R/F1 en un conjunto de datos más grande y caótico es más significativa.

Siguiendo esta intuición, probablemente se necesitaría acceder a la salida de los métodos de "caja negra" para medir la diferencia en la distribución de los resultados, teniendo en cuenta el tamaño y la variedad de ese conjunto. La P/R/F1 por sí sola es probablemente muy poca información.

Las pruebas de significación en este entorno suelen realizarse formando una hipótesis nula (los dos algoritmos producen siempre la misma salida) y luego calculando la probabilidad de observar la diferencia en la salida que se observa si los algoritmos fueran realmente los mismos. Si la probabilidad es inferior a 0,05, por ejemplo, se rechaza la hipótesis nula y se concluye que la mejora es significativa.

Este documento contiene discusiones relevantes: http://www.aclweb.org/anthology/C00-2137

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X