4 votos

¿El intervalo de confianza de arranque se basa en suposiciones sobre la distribución nula?

Mi pregunta se basa en las notas de las conferencias relevantes.

Cuando derivamos intervalos de confianza (IC) a partir de la prueba de significancia de la hipótesis nula, invocamos la suposición de que los datos provienen de la distribución parametrizada según la hipótesis nula, y llegamos a una declaración de la siguiente forma:

El CI del 95% es $[x_{avg}-1.96*\sigma/n^{0.5},x_{avg}+1.96*\sigma/n^{0.5}]$, donde $x_{avg}$ es la media empírica calculada a partir de muestras extraídas de una distribución normal con alguna media desconocida $\mu$ y desviación estándar conocida $\sigma$, condicionada a/ASUMIENDO que los datos se extraen de la distribución definida por la hipótesis nula. La suposición se utilizó para calcular la probabilidad deseada del 95%.

En el bootstrapping no paramétrico, utilizado para calcular el CI para datos derivados de distribuciones desconocidas, estimamos la variación en la estadística por ejemplo, la media empírica a partir de la media de la población utilizando variaciones entre la media estimada en muestras extraídas de la distribución remuestreada, y la media empírica, y luego derivamos el CI según la distribución de las desviaciones. Pero en este cálculo, no usamos ninguna información de la hipótesis nula, entonces ¿es correcto afirmar que en el bootstrapping no paramétrico, el CI es la probabilidad de que la cantidad de interés por ejemplo, la media poblacional se encuentre en el intervalo calculado, condicionada a nada?

3voto

manku Puntos 111

Creo que es un error asumir que un IC debe depender de una distribución nula. Considere la muestra normal ficticia de tamaño $n = 100$ a continuación:

Intervalo de confianza basado en los datos y la distribución t. El intervalo de confianza t del 95% se basa en la muestra. Específicamente, es $\bar X \pm t^*S/\sqrt{n},$ donde $t^*$ corta la probabilidad 0.025 de la cola superior de $\mathsf{T}(\nu=99),$ lo que da como resultado $(47.35,\, 50.21).$

set.seed(2021)
x = rnorm(100, 50, 7)
mean(x);  sd(x)
[1] 48.77861
[1] 7.200381

stripchart(x, pch="|")

enter image description here

ci = mean(x) + qt(c(.025,.975),99)*sd(x)/sqrt(100); ci
[1] 47.34990 50.20732

Pruebas t de dos colas al nivel de significancia del 5%. Podemos usar esta muestra para probar $H_0: \mu = 55$ contra $H_a: \mu \ne 55$ (rechazando $H_0$ al 5% con un valor P cercano a $0)$ o para probar $H_0: \mu = 50.01$ contra $H_a: \mu \ne 50.01$ (sin rechazar con un valor P $0.07 > 0.05).$ De cualquier manera, el IC reportado por el procedimiento t.test en R es el mismo que el anterior.

t.test(x, mu=55)

        One Sample t-test

data:  x
t = -8.6404, df = 99, p-value = 1e-13
alternative hypothesis: 
 true mean is not equal to 55
95 percent confidence interval:
 47.34990 50.20732  # igual que arriba
sample estimates:
mean of x 
 48.77861 

t.test(x, mu=50.1)

        One Sample t-test

data:  x
t = -1.8352, df = 99, p-value = 0.06948
alternative hypothesis: 
 true mean is not equal to 50.1
95 percent confidence interval:
 47.34990 50.20732  # nuevamente, igual que arriba
sample estimates:
mean of x 
 48.77861 

Sin embargo, hay una conexión entre el CI del 95% y la prueba t de dos colas al nivel de significancia del 5%. Cualquier valor hipotético dentro del CI no será rechazado (como 50.0); y cualquier valor hipotético fuera del CI será rechazado (como fue 55).

ICs de bootstrap no paramétricos. Ahora supongamos que no sabemos que los datos x fueron muestreados de una distribución normal. Por lo tanto, no estamos seguros de que se pueda obtener un IC del 95% válido para la media de la población $\mu$ usando la distribución t de Student.

Un IC no paramétrico del 95% se puede obtener volviendo a muestrear los datos. Hay muchos estilos de ICs de bootstrap. Se basan en datos sin hacer referencia a la hipótesis nula de una prueba.

Puede tener un estilo particular de IC de bootstrap en mente. Uno de los más simples, que puede estar bien porque nuestra muestra parece ser aproximadamente simétrica, se ilustra a continuación. El resultado es $(47.4,\, 50.16),$ que no es muy diferente del IC t para $\mu$ mencionado anteriormente.

a.re = replicate(2000, mean(sample(x,100,rep=T)))
quantile(a.re, c(.025,.975))
    2.5%    97.5% 
 47.38079 50.16279 

Adenda: El procedimiento de rango con signos de Wilcoxon de una muestra en R da un intervalo de confianza no paramétrico del 95% $(47.20, 50.23)$ para el "centro" de la población. (La mediana de la muestra x es $49.06.)$

wilcox.test(x, conf.int=T)$conf.int
[1] 47.20100 50.22682
attr(,"conf.level")
[1] 0.95

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X