Sí, usted puede aproximar $\mathbb{P}\left(\bar{X}_n \leq x\right)$ $\mathbb{P}\left(\bar{X}_n^* \leq x\right)$ pero no es óptimo. Esta es una forma de bootstrap percentil. Sin embargo, el percentil bootstrap no funciona bien si usted está buscando para hacer inferencias acerca de la media de la población es menos que tenga un gran tamaño de la muestra. (Realiza bien con muchos otros inferencia problemas, incluso cuando el tamaño de la muestra es de pequeño tamaño.) Aprovecho esta conclusión a partir de Wilcox Moderno Estadísticas para las Ciencias Sociales y del Comportamiento, CRC Press, 2012. Un teórico de la prueba es más allá de mí, tengo miedo.
Una variante del enfoque centrado va el siguiente paso y escalas de su centrado bootstrap estadística con la re-desviación estándar de la muestra y el tamaño de la muestra, el cálculo de la misma manera como un t estadística. Los cuantiles de la distribución de estos estadísticos de ajuste se puede utilizar para construir un intervalo de confianza o realizar una prueba de hipótesis. Este es el bootstrap-t método y da resultados superiores al hacer inferencias acerca de la media.
Deje $s^*$ ser la re-desviación estándar de la muestra basado en bootstrap volver a la muestra, el uso de n-1 como denominador; y s la desviación estándar de la muestra original. Vamos
$T^*=\frac{\bar{X}_n^*-\bar{X}}{s^*/\sqrt{n}}$
El 97.5 th y 2.5 th percentiles de la distribución simulada de $T^*$ puede hacer que un intervalo de confianza para $\mu$ por:
$\bar{X}-T^*_{0.975} \frac{s}{\sqrt{n}}, \bar{X}-T^*_{0.025} \frac{s}{\sqrt{n}}$
Considerar los resultados de la simulación a continuación, mostrando que con un mal sesgada mixto de distribución de los intervalos de confianza a partir de este método de contener el verdadero valor con más frecuencia que el percentil del método bootstrap o un tradicional inverstion de un t estadística con ninguna de arranque.
compare.boots <- function(samp, reps = 599){
# "samp" is the actual original observed sample
# "s" is a re-sample for bootstrap purposes
n <- length(samp)
boot.t <- numeric(reps)
boot.p <- numeric(reps)
for(i in 1:reps){
s <- sample(samp, replace=TRUE)
boot.t[i] <- (mean(s)-mean(samp)) / (sd(s)/sqrt(n))
boot.p[i] <- mean(s)
}
conf.t <- mean(samp)-quantile(boot.t, probs=c(0.975,0.025))*sd(samp)/sqrt(n)
conf.p <- quantile(boot.p, probs=c(0.025, 0.975))
return(rbind(conf.t, conf.p, "Trad T test"=t.test(samp)$conf.int))
}
# Tests below will be for case where sample size is 15
n <- 15
# Create a population that is normally distributed
set.seed(123)
pop <- rnorm(1000,10,1)
my.sample <- sample(pop,n)
# All three methods have similar results when normally distributed
compare.boots(my.sample)
Esto le da la siguiente (conf.t es el bootstrap t método; conf.p es el percentil del método bootstrap).
97.5% 2.5%
conf.t 9.648824 10.98006
conf.p 9.808311 10.95964
Trad T test 9.681865 11.01644
Con un solo ejemplo de una distribución sesgada:
# create a population that is a mixture of two normal and one gamma distribution
set.seed(123)
pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
my.sample <- sample(pop,n)
mean(pop)
compare.boots(my.sample)
Esto le da a la siguiente. Tenga en cuenta que "conf.t" - el bootstrap versión t - da a un amplio intervalo de confianza que los otros dos. Básicamente, es mejor responder a la inusual distribución de la población.
> mean(pop)
[1] 13.02341
> compare.boots(my.sample)
97.5% 2.5%
conf.t 10.432285 29.54331
conf.p 9.813542 19.67761
Trad T test 8.312949 20.24093
Finalmente aquí está un mil simulaciones para ver la versión que da los intervalos de confianza que son a menudo más correcta:
# simulation study
set.seed(123)
sims <- 1000
results <- matrix(FALSE, sims,3)
colnames(results) <- c("Bootstrap T", "Bootstrap percentile", "Trad T test")
for(i in 1:sims){
pop <- c(rnorm(1000,10,2),rgamma(3000,3,1)*4, rnorm(200,45,7))
my.sample <- sample(pop,n)
mu <- mean(pop)
x <- compare.boots(my.sample)
for(j in 1:3){
results[i,j] <- x[j,1] < mu & x[j,2] > mu
}
}
apply(results,2,sum)
Esto le da a los resultados por debajo de los números son los tiempos de cada 1.000 que el intervalo de confianza contiene el verdadero valor de una simulación de la población. Observe que la verdadera tasa de éxito de cada versión es considerablemente inferior al 95%.
Bootstrap T Bootstrap percentile Trad T test
901 854 890