Cuando la hipótesis nula es verdadera, el valor p de una prueba debe tener la distribución uniforme estándar. Esto es lo que obtengo con t.test(...)
en R utilizando dos muestras gaussianas de tamaño 5.
set.seed(123)
p.val <- replicate(n=100000, t.test(rnorm(n=5), rnorm(n=5))$p.value)
hist(p.val, breaks=50)
Se puede ver que hay un déficit de valores p bajos. A continuación se muestra lo que obtengo con muestras algo mayores de tamaño 10.
set.seed(123)
p.val <- replicate(n=100000, t.test(rnorm(n=10), rnorm(n=10))$p.value)
hist(p.val, breaks=50)
El déficit de valores p bajos ha desaparecido. Entonces, ¿qué ocurre en el primer ejemplo? ¿Hay algún problema con t.test(...)
en R para muestras de pequeño tamaño?
> sessionInfo()
R version 4.2.1 (2022-06-23)
Platform: x86_64-apple-darwin17.0 (64-bit)
Running under: macOS Catalina 10.15.7
Matrix products: default
BLAS: /Library/Frameworks/R.framework/Versions/4.2/Resources/lib/libRblas.0.dylib
LAPACK: /Library/Frameworks/R.framework/Versions/4.2/Resources/lib/libRlapack.dylib
locale:
[1] en_CA.UTF-8/en_CA.UTF-8/en_CA.UTF-8/C/en_CA.UTF-8/en_CA.UTF-8
attached base packages:
[1] stats graphics grDevices utils datasets methods base
loaded via a namespace (and not attached):
[1] compiler_4.2.1