25 votos

¿Está mal calibrada la prueba t en R?

Cuando la hipótesis nula es verdadera, el valor p de una prueba debe tener la distribución uniforme estándar. Esto es lo que obtengo con t.test(...) en R utilizando dos muestras gaussianas de tamaño 5.

set.seed(123)
p.val <- replicate(n=100000, t.test(rnorm(n=5), rnorm(n=5))$p.value)
hist(p.val, breaks=50)

Se puede ver que hay un déficit de valores p bajos. A continuación se muestra lo que obtengo con muestras algo mayores de tamaño 10.

set.seed(123)
p.val <- replicate(n=100000, t.test(rnorm(n=10), rnorm(n=10))$p.value)
hist(p.val, breaks=50)

El déficit de valores p bajos ha desaparecido. Entonces, ¿qué ocurre en el primer ejemplo? ¿Hay algún problema con t.test(...) en R para muestras de pequeño tamaño?


> sessionInfo()
R version 4.2.1 (2022-06-23)
Platform: x86_64-apple-darwin17.0 (64-bit)
Running under: macOS Catalina 10.15.7

Matrix products: default
BLAS:   /Library/Frameworks/R.framework/Versions/4.2/Resources/lib/libRblas.0.dylib
LAPACK: /Library/Frameworks/R.framework/Versions/4.2/Resources/lib/libRlapack.dylib

locale:
[1] en_CA.UTF-8/en_CA.UTF-8/en_CA.UTF-8/C/en_CA.UTF-8/en_CA.UTF-8

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

loaded via a namespace (and not attached):
[1] compiler_4.2.1

42voto

reinierpost Puntos 101

t.test realiza Welch's t -prueba si el argumento var.equal no se establece explícitamente en TRUE . La distribución del estadístico de prueba (bajo la hipótesis nula) en la prueba de Welch t -prueba sólo se aproxima mediante un t -y esta aproximación mejora al aumentar el tamaño de las muestras. Por lo tanto, el resultado de su simulación no es especialmente sorprendente.


Anexo
Las estadísticas de la prueba de Welch t -test y Student's t -coinciden si los dos tamaños de muestra $n_1$ y $n_2$ (del grupo $1$ y $2$ respectivamente) son iguales. Por lo tanto, la discrepancia en el (simulado) p -distribuciones de valores de las dos pruebas (obsérvese que la de Student t -la prueba es uniforme en $\left[0,1\right]$ ) bajo la hipótesis nula se debe a la discrepancia entre los grados de libertad estimados $\nu$ en Welch's t -y los grados de libertad $\tilde\nu=2\left(n-1\right)$ en Student's t -prueba, donde $n=n_1=n_2$ .

Es fácil ver que, si $n_1=n_2$ los grados de libertad estimados vienen dados por $$ \nu = \frac{\left(n-1\right)\left(s_1^2 + s_2^2\right)^2}{s_1^4+s_2^4} = \frac{\left(n-1\right)\left(s_1^4 + s_2^4 + 2s_1^2s_2^2 \right)}{s_1^4+s_2^4}, $$ donde $s_1$ y $s_2$ son las desviaciones típicas de la muestra corregidas por Bessel.

Por el Desigualdad AM-GM y la no negatividad de las desviaciones típicas de la muestra, $2s_1^2s_2^2 \leq s_1^4 + s_2^4$ (con igualdad sólo si $s_1 = s_2$ ) y $2s_1^2s_2^2 \geq 0$ Por lo tanto $n-1 \leq \nu \leq 2\left(n-1\right)=\tilde\nu$ . Esto demuestra que los grados de libertad estimados sólo pueden subestimar (o $-$ pero casi nunca $-$ coinciden con) los verdaderos grados de libertad en la situación dada, lo que lleva al conservador p -valores observados en su simulación.
Este comportamiento se ilustra muy bien en Respuesta de Thomas Lumley .

Desde $s_1$ tenderá a estar más cerca de $s_2$ con el aumento de $n$ también podemos ver que $\nu$ tenderá a estar más cerca de $\tilde\nu$ como $n$ aumentos. Además, para una diferencia fija $\nu - \tilde\nu$ en grados de libertad de dos t -sus PDF son cada vez más parecidas a medida que aumentan las $\nu$ y $\nu$ aumenta con $n$ en nuestro caso. Esto explica la mejora de la aproximación y, por tanto, de la p -distribución de valores con el aumento del tamaño de grupo/total de la muestra.

23voto

Siguiendo con la respuesta correcta de @statmerkur: primero, esto es lo que se consigue con var.equal=TRUE enter image description here

que está bien calibrado. En segundo lugar, aquí está la distribución de grados de libertad estimados para la prueba t de Welch

enter image description here

Como puede ver, los grados de libertad estimados suelen estar cerca de 8, pero en ocasiones son bastante más pequeños. Cuando el df es menor, el valor p será conservador.

Por último, he aquí la distribución de valores p por separado para df>7 y $\leq 7$

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X