Vi un artículo comparando dos modelos de ML basados en una prueba estadística. Probaron estos dos modelos utilizando diferentes conjuntos de datos y luego compararon sus resultados de precisión utilizando una prueba estadística para ver si hay alguna significancia estadística. Estaba pensando que si fuera el autor, simplemente calcularía la media de los resultados de precisión y compararía los dos modelos basándose en sus medias. Entonces, ¿cuándo usar la prueba estadística y cuándo usar enfoques más simples como comparar las dos medias?
@nbro, La hipótesis nula postula un rendimiento predictivo igualmente bueno en la población, o en este caso, para un proceso generador de datos dado. La configuración: tenemos un proceso que está generando los datos; comparamos dos modelos en una muestra generada por el proceso; hacemos inferencias sobre pronósticos en una muestra infinitamente grande del mismo proceso.