Supongamos que tengo dos conjuntos de datos, $\mathbf{a}$ y $\mathbf{b}$ . Quiero comprobar si los dos conjuntos de datos son diferentes de forma estadísticamente significativa.
Para calcular la prueba F, tomo el cociente de las varianzas de cada conjunto de datos y lo comparo con los valores F basados en algún nivel de significación (por ejemplo $\alpha = 0.05$ ) y el número de grados de libertad. Si el valor de F que he calculado está fuera de los límites de $1\pm\alpha$ entonces se rechaza la hipótesis nula (es decir, los dos conjuntos de datos son diferentes de forma estadísticamente significativa).
Para calcular la prueba KS, encuentro la ECDF de cada conjunto de datos y la distancia vertical máxima entre las ECDF para calcular el estadístico D. De forma similar a la prueba F, si el estadístico D es mayor que un valor crítico, se rechaza la hipótesis nula (es decir, los dos conjuntos de datos son diferentes de forma estadísticamente significativa).
Mi intuición es que las pruebas deberían dar, en general, resultados similares. Si algo es estadísticamente significativo, debería serlo para ambas pruebas, ¿no? Tal vez esta intuición sea errónea. Pero, al menos, pensaba que la prueba KS era más sensible que la prueba F. Por lo tanto, si la prueba F rechaza la hipótesis nula, pensé que seguro la prueba KS también rechazaría la nula.
Pero he encontrado muchos casos en los que esto no es cierto. ¡Tengo algunos ejemplos en los que la prueba F resulta en el rechazo de la hipótesis nula mientras que la prueba KS no lo hace!
Se agradece cualquier explicación de por qué puede ser esto.