5 votos

Cuándo usar pruebas estadísticas para comparar dos modelos de aprendizaje automático

Vi un artículo comparando dos modelos de ML basados en una prueba estadística. Probaron estos dos modelos utilizando diferentes conjuntos de datos y luego compararon sus resultados de precisión utilizando una prueba estadística para ver si hay alguna significancia estadística. Estaba pensando que si fuera el autor, simplemente calcularía la media de los resultados de precisión y compararía los dos modelos basándose en sus medias. Entonces, ¿cuándo usar la prueba estadística y cuándo usar enfoques más simples como comparar las dos medias?

4voto

Richard Hardy Puntos 6099

Citando a Francis X. Diebold "Comparing predictive accuracy, twenty years later: A personal perspective on the use and abuse of Diebold–Mariano tests" (2015),

Todos hemos visto cientos de carreras predictivas, con uno u otro declarado como el "ganador" (usualmente el nuevo caballo en el establo), pero sin consideración dada a la significancia estadística de la victoria. Tales comparaciones predictivas son incompletas y, por lo tanto, insatisfactorias. Es decir, en cualquier realización particular, uno u otro caballo debe emerger victorioso, pero se quiere saber si la victoria es estadísticamente significativa. Es decir, uno quiere saber si una victoria "en muestra" fue simplemente buena suerte, o verdaderamente indicativa de una diferencia "en población".

(El énfasis es mío.)

Entonces, si simplemente calculaste la media de los resultados de precisión y comparaste los dos modelos basados en sus medias, no sabrías cuán probable es que la aparente superioridad de un modelo se deba a la variación en la muestra versus la diferencia genuina entre la capacidad de pronóstico de los modelos. Las pruebas estadísticas proporcionan herramientas para evaluar esto.

Entonces, ¿cuándo utilizar pruebas estadísticas y cuándo usar enfoques más simples como comparar las dos medias?

Si deseas una respuesta con ciertos límites de certeza (lo cual supongo que es siempre el caso), necesitas una prueba. Si omites la prueba, no tendrás forma de saber cuán confiable es el resultado, haciéndolo bastante inútil.

0 votos

@nbro, La hipótesis nula postula un rendimiento predictivo igualmente bueno en la población, o en este caso, para un proceso generador de datos dado. La configuración: tenemos un proceso que está generando los datos; comparamos dos modelos en una muestra generada por el proceso; hacemos inferencias sobre pronósticos en una muestra infinitamente grande del mismo proceso.

0 votos

@nbro, OK. ¿Significa esto que has respondido tu pregunta tú mismo, o hay algo que no ha sido respondido?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X