Hay algunas dificultades que son comunes a todos los no paramétricos de arranque de las estimaciones de los intervalos de confianza (IC), algunos que son más de un problema con el "empírico" (llamada "basic" en la boot.ci()
función de la R boot
paquete y en la Ref. 1) y la "percentil" CI estima (como se describe en la Ref. 2), y algunos que pueden ser exacerbadas con el percentil de la Cei.
TL;DR: En algunos casos bootstrap percentil CI estima podría funcionar adecuadamente, pero si ciertos supuestos que no se mantenga, a continuación, el percentil CI podría ser la peor elección, con el empírica básica/arranque de la próxima peor. Otros bootstrap CI estima puede ser más fiable, con una mejor cobertura. Todo puede ser problemático. Mirando los gráficos de diagnóstico, como siempre, ayuda a evitar posibles errores ocasionados por la aceptación de la salida de una rutina de software.
Configuración inicio
Por lo general siguiendo la terminología y los argumentos de Ref. 1, tenemos una muestra de los datos de $y_1, ..., y_n$ extraídas de independientes e idénticamente distribuidas variables aleatorias $Y_i$ compartir la función de distribución acumulativa $F$. La función de distribución empírica (FED) construido a partir de la muestra de datos es $\hat F$. Estamos interesados en una característica $\theta$ de la población, que se estima por un dato de $T$ cuyo valor en la muestra es $t$. Nos gustaría saber cómo de bien $T$ estimaciones de $\theta$, por ejemplo, la distribución de $(T - \theta)$.
No paramétrica de bootstrap utiliza el muestreo de la FED $\hat F$ a imitar muestreo de $F$, teniendo en $R$ de las muestras de cada uno de tamaño $n$ con la sustitución de la $y_i$. Los valores calculados a partir de las muestras bootstrap están marcadas con "*". Por ejemplo, la estadística $T$, calculado sobre bootstrap de la muestra j proporciona un valor de $T_j^*$.
Empírica/básica frente a bootstrap percentil CIs
El empírica básica/bootstrap utiliza la distribución de $(T^*-t)$ entre el $R$ bootstrap muestras de $\hat F$ para estimar la distribución de $(T-\theta)$ dentro de la población descrita por $F$ sí. Su CI estimaciones se basa por lo tanto en la distribución de $(T^*-t)$ donde $t$ es el valor de la estadística en la muestra original.
Este enfoque se basa en el principio fundamental de "bootstrapping" (Ref. 3):
La población de la muestra en el ejemplo es el bootstrap de muestras.
El percentil bootstrap utiliza, en su lugar de cuantiles de la $T_j^*$ propios valores para determinar el CI. Estas estimaciones pueden ser muy diferentes si hay sesgo o prejuicio en la distribución de $(T-\theta)$.
Dicen que hay un sesgo observada $B$ tal forma que:
$$\bar T^*=t+B,$$
where $\barra de T^*$ is the mean of the $T_j^*$. For concreteness, say that the 5th and 95th percentiles of the $T_j^*$ are expressed as $\bar T^*-\delta_1$ and $\bar T^*+\delta_2$, where $\bar T^*$ is the mean over the bootstrap samples and $\delta_1,\delta_2$ are each positive and potentially different to allow for skew. The 5th and 95th CI percentile-based estimates would directly be given respectively by:
$$\bar T^*-\delta_1=t+B-\delta_1; \bar T^*+\delta_2=t+B+\delta_2.$$
The 5th and 95th percentile CI estimates by the empirical/basic bootstrap method would be respectively (Ref. 1, eq. 5.6, page 194):
$$2t-(\bar T^*+\delta_2) = t-B-\delta_2; 2t-(\bar T^*-\delta_1) = t-B+\delta_1.$$
So percentile-based CIs both get the bias wrong and flip the directions of the potentially asymmetric positions of the confidence limits around a doubly-biased center. The percentile CIs from bootstrapping in such a case do not represent the distribution of $(T-\theta)$.
Should the percentile bootstrap never be used?
That might be an overstatement or an understatement, depending on your perspective. If you can document minimal bias and skew, for example by visualizing the distribution of $(T^*-t)$ with histograms or density plots, the percentile bootstrap should provide essentially the same CI as the empirical/basic CI. These are probably both better than the simple normal approximation to the CI.
Neither approach, however, provides the accuracy in coverage that can be provided by other bootstrap approaches. Efron from the beginning recognized potential limitations of percentile CIs but said: "Mostly we will be content to let the varying degrees of success of the examples speak for themselves." (Ref. 2, page 3)
Subsequent work, summarized for example by DiCiccio and Efron (Ref. 4), developed methods that "improve by an order of magnitude upon the accuracy of the standard intervals" provided by the empirical/basic or percentile methods. Thus one might argue that neither the empirical/basic nor the percentile methods should be used, if you care about accuracy of the intervals.
In extreme cases, for example sampling directly from a lognormal distribution without transformation, no bootstrapped CI estimates might be reliable, as Frank Harrell has noted.
What limits the reliability of these and other bootstrapped CIs?
Several issues can tends to make bootstrapped CIs unreliable. Some apply to all approaches, others can be alleviated by approaches other than the empirical/basic or percentile methods.
The first, general, issue is how well the empirical distribution $\hat F$ represents the population distribution $F$. If it doesn't, then no bootstrapping method will be reliable. In particular, bootstrapping to determine anything close to extreme values of a distribution can be unreliable. This issue is discussed elsewhere on this site, for example here and here. The few, discrete, values available in the tails of $\hat F$ for any particular sample might not represent the tails of a continuous $F$ very well. An extreme but illustrative case is trying to use bootstrapping to estimate the maximum order statistic of a random sample from a uniform $\;\mathcal{U}[0,\theta]$ distribution, as explained nicely here. Note that bootstrapped 95% or 99% CI are themselves at tails of a distribution and thus could suffer from such a problem, particularly with small sample sizes.
Second, there is no assurance that sampling of any quantity from $\hat F$ will have the same distribution as sampling it from $F$. Sin embargo, este supuesto subyace en el principio fundamental de arranque. Las cantidades con que la propiedad deseable se llaman fundamental. Como AdamO explica:
Esto significa que si el subyacente de los cambios en los parámetros, la forma de la distribución sólo es desplazado por una constante, y la escala no necesariamente cambiar. Este es un gran asunción!
Por ejemplo, si hay sesgo es importante saber que el muestreo de $F$ $\theta$ es el mismo que el muestreo de $\hat F$$t$. Y este es un problema particular en la paramétrica de muestreo; como Ref. 1 lo pone en la página 33:
En la paramétrica de problemas, la situación es más complicada. Ahora es poco probable (pero no es estrictamente imposible) que cualquier cantidad puede ser exactamente fundamental.
Así que la mejor que es normalmente posible es una aproximación. Este problema, sin embargo, a menudo pueden tratarse adecuadamente. Es posible estimar cómo de cerca de una muestra de la cantidad es fundamental, por ejemplo con el pivote de las parcelas según lo recomendado por Canty et al. Estas pueden mostrar cómo las distribuciones de estimaciones bootstrap $(T^*-t)$ variar con $t$, o qué tan bien una transformación de $h$ proporciona una cantidad $(h(T^*)-h(t))$ que es fundamental. Métodos para mejorar el bootstrap de la Cei puede intentar encontrar una transformación de $h$ tal que $(h(T^*)-h(t))$ está más cerca fundamental para la estimación de la Cei en la escala transformada, luego se transforma de nuevo a la escala original.
El boot.ci()
que proporciona la función studentized bootstrap CIs (llamado "bootstrap-t" por DiCiccio y Efron) y $BC_a$ CIs (sesgo corregido y acelerado, donde la "aceleración" se ocupa de sesgo) que son "de segundo orden preciso en que la diferencia entre el deseado y logrado una cobertura $\alpha$ (por ejemplo, 95% CI) está en el orden de $n^{-1}$, frente a los de primer orden precisa (orden de $n^{-0.5}$) para el empírica/básico y percentil métodos (Ref 1, pp 212-3; Ref. 4). Sin embargo, estos métodos requieren el seguimiento de las varianzas dentro de cada una de las muestras bootstrap, no sólo los valores individuales de la $T_j^*$ utilizado por los métodos más sencillos.
En casos extremos, se podría recurrir al arranque dentro de las muestras bootstrap sí mismos para proporcionar un adecuado ajuste de los intervalos de confianza. Esta "Doble Bootstrap" se describe en la Sección 5.6 de la Ref. 1, con otros capítulos en que libro lo que sugiere maneras de minimizar su extrema demandas computacionales.
Davison, A. C. y Hinkley, D. V. Bootstrap y sus Métodos de Aplicación, Cambridge University Press, 1997.
Efron, B. Bootstrap Métodos: Otra mirada a la jacknife, Ann. Estatismo. 7: 1-26, 1979.
Fox, J. y Weisberg, S. de Arranque de los modelos de regresión en R. Un Apéndice R Compañero de la aplicación de la Regresión, Segunda Edición (Salvia, 2011). Revisión de 10 de octubre de 2017.
DiCiccio, T. J. y Efron, B. Bootstrap intervalos de confianza. Stat. Sci. 11: 189-228, 1996.
Canty, A. J., Davison, A. C., Hinkley, D. V., y Ventura, V. Bootstrap diagnósticos y remedios. Puede. J. Stat. 34: 5-27, 2006.