Intuitivamente, conseguir un P/R/F1 alto en un conjunto de datos pequeño, o en un conjunto de datos muy uniforme/predecible es probablemente más fácil que conseguir un P/R/F1 alto en conjuntos de datos más grandes o más caóticos. Por lo tanto, una mejora de P/R/F1 en un conjunto de datos más grande y caótico es más significativa.
Siguiendo esta intuición, probablemente se necesitaría acceder a la salida de los métodos de "caja negra" para medir la diferencia en la distribución de los resultados, teniendo en cuenta el tamaño y la variedad de ese conjunto. La P/R/F1 por sí sola es probablemente muy poca información.
Las pruebas de significación en este entorno suelen realizarse formando una hipótesis nula (los dos algoritmos producen siempre la misma salida) y luego calculando la probabilidad de observar la diferencia en la salida que se observa si los algoritmos fueran realmente los mismos. Si la probabilidad es inferior a 0,05, por ejemplo, se rechaza la hipótesis nula y se concluye que la mejora es significativa.
Este documento contiene discusiones relevantes: http://www.aclweb.org/anthology/C00-2137