Creo que es un error asumir que un IC debe depender de una distribución nula. Considere la muestra normal ficticia de tamaño $n = 100$ a continuación:
Intervalo de confianza basado en los datos y la distribución t. El intervalo de confianza t del 95% se basa en la muestra. Específicamente, es $\bar X \pm t^*S/\sqrt{n},$ donde $t^*$ corta la probabilidad 0.025 de la cola superior de $\mathsf{T}(\nu=99),$ lo que da como resultado $(47.35,\, 50.21).$
set.seed(2021)
x = rnorm(100, 50, 7)
mean(x); sd(x)
[1] 48.77861
[1] 7.200381
stripchart(x, pch="|")
ci = mean(x) + qt(c(.025,.975),99)*sd(x)/sqrt(100); ci
[1] 47.34990 50.20732
Pruebas t de dos colas al nivel de significancia del 5%. Podemos usar esta muestra para probar $H_0: \mu = 55$ contra $H_a: \mu \ne 55$ (rechazando $H_0$ al 5% con un valor P cercano a $0)$ o para probar $H_0: \mu = 50.01$ contra $H_a: \mu \ne 50.01$ (sin rechazar con un valor P $0.07 > 0.05).$ De cualquier manera, el IC reportado por el procedimiento t.test
en R es el mismo que el anterior.
t.test(x, mu=55)
One Sample t-test
data: x
t = -8.6404, df = 99, p-value = 1e-13
alternative hypothesis:
true mean is not equal to 55
95 percent confidence interval:
47.34990 50.20732 # igual que arriba
sample estimates:
mean of x
48.77861
t.test(x, mu=50.1)
One Sample t-test
data: x
t = -1.8352, df = 99, p-value = 0.06948
alternative hypothesis:
true mean is not equal to 50.1
95 percent confidence interval:
47.34990 50.20732 # nuevamente, igual que arriba
sample estimates:
mean of x
48.77861
Sin embargo, hay una conexión entre el CI del 95% y la prueba t de dos colas al nivel de significancia del 5%. Cualquier valor hipotético dentro del CI no será rechazado (como 50.0); y cualquier valor hipotético fuera del CI será rechazado (como fue 55).
ICs de bootstrap no paramétricos. Ahora supongamos que no sabemos que los datos x
fueron muestreados de una distribución normal. Por lo tanto, no estamos seguros de que se pueda obtener un IC del 95% válido para la media de la población $\mu$ usando la distribución t de Student.
Un IC no paramétrico del 95% se puede obtener volviendo a muestrear los datos. Hay muchos estilos de ICs de bootstrap. Se basan en datos sin hacer referencia a la hipótesis nula de una prueba.
Puede tener un estilo particular de IC de bootstrap en mente. Uno de los más simples, que puede estar bien porque nuestra muestra parece ser aproximadamente simétrica, se ilustra a continuación. El resultado es $(47.4,\, 50.16),$ que no es muy diferente del IC t para $\mu$ mencionado anteriormente.
a.re = replicate(2000, mean(sample(x,100,rep=T)))
quantile(a.re, c(.025,.975))
2.5% 97.5%
47.38079 50.16279
Adenda: El procedimiento de rango con signos de Wilcoxon de una muestra en R da un intervalo de confianza no paramétrico del 95% $(47.20, 50.23)$ para el "centro" de la población. (La mediana de la muestra x
es $49.06.)$
wilcox.test(x, conf.int=T)$conf.int
[1] 47.20100 50.22682
attr(,"conf.level")
[1] 0.95