78 votos

¿Es cierto que el bootstrap percentil nunca se debe utilizar?

En el MIT OpenCourseWare notas para 18.05 Introducción a la Probabilidad y la Estadística, en la Primavera de 2014 (actualmente disponible aquí), afirma:

El bootstrap percentil método es atractivo debido a su simplicidad. Sin embargo, depende de el bootstrap de distribución de $\bar{x}^{*}$ basado en una particular muestra de ser una buena aproximación a la verdadera distribución de $\bar{x}$. Rice dice que el percentil método", Aunque esta ecuación directa de cuantiles de la distribución de muestreo bootstrap con límites de confianza puede parecer inicialmente atractiva, la justificación es algo oscuro."[2] En corto, no use los archivos de inicio percentil método. El uso de la evidencia empírica de bootstrap en su lugar (que hemos explicado tanto en el la esperanza de que usted no confundir el empírica bootstrap para el percentil bootstrap).

[2] John Rice, Estadística Matemática y el Análisis de Datos, 2ª edición, pág. 272

Después de un poco de búsqueda en línea, esta es la única cita que he encontrado que abiertamente declara que el percentil bootstrap no debe ser utilizado.

Lo que recuerdo de la lectura del texto de los Principios y de la Teoría para la Minería de Datos y Aprendizaje automático por Clarke et al. es que la principal justificación para el arranque está el hecho de que $$\dfrac{1}{n}\sum_{i=1}^{n}\hat{F}_n(x) \overset{p}{\to} F(x)$$ donde $\hat{F}_n$ es el CDF empírica. (No recuerdo los detalles más allá de esto.)

Es cierto que el percentil del método bootstrap no debe ser utilizado? Si es así, ¿qué alternativas existen para al $F$ no es necesariamente conocida (es decir, no se dispondrá de información suficiente para hacer un bootstrap paramétrico)?

Edit: Ya se han solicitado aclaraciones, el empírica bootstrap se refiere al procedimiento siguiente:

Cuando se forme un $100(1-\alpha)$% intervalo de confianza para $\theta$ en la forma $\hat{\theta} \pm c \cdot \text{se}$ donde $\text{se}$ es el error estándar, se reúnen las estimaciones de $\text{se}$ usando bootstrap y el uso $\text{se}_{\alpha/2}$, $\text{se}_{1-\alpha/2}$, con los subíndices denotan los percentiles de las estimaciones bootstrap.

Resumen de la Sección 11.2 del Equipo de la Edad de la Inferencia Estadística, por Efron y Hastie (2016).

El MIT notas vinculadas por encima de hacer algo similar, pero no exactamente: cómputo de $\delta_1 = (\hat{\theta}^{*}-\hat{\theta})_{\alpha/2}$ $\delta_2 = (\hat{\theta}^{*}-\hat{\theta})_{1-\alpha/2}$ $\hat{\theta}^{*}$ el bootstrap estimaciones de $\theta$ $\hat{\theta}$ el total de la muestra la estimación de $\theta$, y el resultado estimado del intervalo de confianza sería $[\hat{\theta}-\delta_1, \hat{\theta} - \delta_2]$.

En esencia, la idea principal es esta: empírica de arranque estima una cantidad proporcional a la diferencia entre el punto y la estimación de parámetros reales, es decir, $\hat{\theta}-\theta$, y utiliza esta diferencia para llegar a la parte inferior y superior de CI límites.

El percentil bootstrap se refiere a los siguientes:

Para formar un $100(1-\alpha)$% intervalo de confianza para $\theta(\mathbf{x})$, vamos a $\hat{\theta}(\mathbf{x})$ ser una estadística para $\theta(\mathbf{x})$, volver a muestrear para calcular $\hat{\theta}(\mathbf{x}^{*})$ $\mathbf{x}^{*}$ un remuestreo del mismo tamaño como $\mathbf{x}$, y el uso de $[\hat{\theta}(\mathbf{x}^{*})_{\alpha/2}, \hat{\theta}(\mathbf{x}^{*})_{1-\alpha/2}]$ intervalo de confianza para $\theta(\mathbf{x})$.

Resumen de la Sección 11.2 del Equipo de la Edad de la Inferencia Estadística, por Efron y Hastie (2016).

En esta situación, hacemos uso de bootstrap para calcular estimaciones de los parámetros de interés y tomar los percentiles de estas estimaciones para el intervalo de confianza.

Por favor, hágamelo saber si hay algo que escribí arriba es confusa o incorrecta.

64voto

EdM Puntos 5716

Hay algunas dificultades que son comunes a todos los no paramétricos de arranque de las estimaciones de los intervalos de confianza (IC), algunos que son más de un problema con el "empírico" (llamada "basic" en la boot.ci() función de la R boot paquete y en la Ref. 1) y la "percentil" CI estima (como se describe en la Ref. 2), y algunos que pueden ser exacerbadas con el percentil de la Cei.

TL;DR: En algunos casos bootstrap percentil CI estima podría funcionar adecuadamente, pero si ciertos supuestos que no se mantenga, a continuación, el percentil CI podría ser la peor elección, con el empírica básica/arranque de la próxima peor. Otros bootstrap CI estima puede ser más fiable, con una mejor cobertura. Todo puede ser problemático. Mirando los gráficos de diagnóstico, como siempre, ayuda a evitar posibles errores ocasionados por la aceptación de la salida de una rutina de software.

Configuración inicio

Por lo general siguiendo la terminología y los argumentos de Ref. 1, tenemos una muestra de los datos de $y_1, ..., y_n$ extraídas de independientes e idénticamente distribuidas variables aleatorias $Y_i$ compartir la función de distribución acumulativa $F$. La función de distribución empírica (FED) construido a partir de la muestra de datos es $\hat F$. Estamos interesados en una característica $\theta$ de la población, que se estima por un dato de $T$ cuyo valor en la muestra es $t$. Nos gustaría saber cómo de bien $T$ estimaciones de $\theta$, por ejemplo, la distribución de $(T - \theta)$.

No paramétrica de bootstrap utiliza el muestreo de la FED $\hat F$ a imitar muestreo de $F$, teniendo en $R$ de las muestras de cada uno de tamaño $n$ con la sustitución de la $y_i$. Los valores calculados a partir de las muestras bootstrap están marcadas con "*". Por ejemplo, la estadística $T$, calculado sobre bootstrap de la muestra j proporciona un valor de $T_j^*$.

Empírica/básica frente a bootstrap percentil CIs

El empírica básica/bootstrap utiliza la distribución de $(T^*-t)$ entre el $R$ bootstrap muestras de $\hat F$ para estimar la distribución de $(T-\theta)$ dentro de la población descrita por $F$ sí. Su CI estimaciones se basa por lo tanto en la distribución de $(T^*-t)$ donde $t$ es el valor de la estadística en la muestra original.

Este enfoque se basa en el principio fundamental de "bootstrapping" (Ref. 3):

La población de la muestra en el ejemplo es el bootstrap de muestras.

El percentil bootstrap utiliza, en su lugar de cuantiles de la $T_j^*$ propios valores para determinar el CI. Estas estimaciones pueden ser muy diferentes si hay sesgo o prejuicio en la distribución de $(T-\theta)$.

Dicen que hay un sesgo observada $B$ tal forma que: $$\bar T^*=t+B,$$

where $\barra de T^*$ is the mean of the $T_j^*$. For concreteness, say that the 5th and 95th percentiles of the $T_j^*$ are expressed as $\bar T^*-\delta_1$ and $\bar T^*+\delta_2$, where $\bar T^*$ is the mean over the bootstrap samples and $\delta_1,\delta_2$ are each positive and potentially different to allow for skew. The 5th and 95th CI percentile-based estimates would directly be given respectively by:

$$\bar T^*-\delta_1=t+B-\delta_1; \bar T^*+\delta_2=t+B+\delta_2.$$

The 5th and 95th percentile CI estimates by the empirical/basic bootstrap method would be respectively (Ref. 1, eq. 5.6, page 194):

$$2t-(\bar T^*+\delta_2) = t-B-\delta_2; 2t-(\bar T^*-\delta_1) = t-B+\delta_1.$$

So percentile-based CIs both get the bias wrong and flip the directions of the potentially asymmetric positions of the confidence limits around a doubly-biased center. The percentile CIs from bootstrapping in such a case do not represent the distribution of $(T-\theta)$.

Should the percentile bootstrap never be used?

That might be an overstatement or an understatement, depending on your perspective. If you can document minimal bias and skew, for example by visualizing the distribution of $(T^*-t)$ with histograms or density plots, the percentile bootstrap should provide essentially the same CI as the empirical/basic CI. These are probably both better than the simple normal approximation to the CI.

Neither approach, however, provides the accuracy in coverage that can be provided by other bootstrap approaches. Efron from the beginning recognized potential limitations of percentile CIs but said: "Mostly we will be content to let the varying degrees of success of the examples speak for themselves." (Ref. 2, page 3)

Subsequent work, summarized for example by DiCiccio and Efron (Ref. 4), developed methods that "improve by an order of magnitude upon the accuracy of the standard intervals" provided by the empirical/basic or percentile methods. Thus one might argue that neither the empirical/basic nor the percentile methods should be used, if you care about accuracy of the intervals.

In extreme cases, for example sampling directly from a lognormal distribution without transformation, no bootstrapped CI estimates might be reliable, as Frank Harrell has noted.

What limits the reliability of these and other bootstrapped CIs?

Several issues can tends to make bootstrapped CIs unreliable. Some apply to all approaches, others can be alleviated by approaches other than the empirical/basic or percentile methods.

The first, general, issue is how well the empirical distribution $\hat F$ represents the population distribution $F$. If it doesn't, then no bootstrapping method will be reliable. In particular, bootstrapping to determine anything close to extreme values of a distribution can be unreliable. This issue is discussed elsewhere on this site, for example here and here. The few, discrete, values available in the tails of $\hat F$ for any particular sample might not represent the tails of a continuous $F$ very well. An extreme but illustrative case is trying to use bootstrapping to estimate the maximum order statistic of a random sample from a uniform $\;\mathcal{U}[0,\theta]$ distribution, as explained nicely here. Note that bootstrapped 95% or 99% CI are themselves at tails of a distribution and thus could suffer from such a problem, particularly with small sample sizes.

Second, there is no assurance that sampling of any quantity from $\hat F$ will have the same distribution as sampling it from $F$. Sin embargo, este supuesto subyace en el principio fundamental de arranque. Las cantidades con que la propiedad deseable se llaman fundamental. Como AdamO explica:

Esto significa que si el subyacente de los cambios en los parámetros, la forma de la distribución sólo es desplazado por una constante, y la escala no necesariamente cambiar. Este es un gran asunción!

Por ejemplo, si hay sesgo es importante saber que el muestreo de $F$ $\theta$ es el mismo que el muestreo de $\hat F$$t$. Y este es un problema particular en la paramétrica de muestreo; como Ref. 1 lo pone en la página 33:

En la paramétrica de problemas, la situación es más complicada. Ahora es poco probable (pero no es estrictamente imposible) que cualquier cantidad puede ser exactamente fundamental.

Así que la mejor que es normalmente posible es una aproximación. Este problema, sin embargo, a menudo pueden tratarse adecuadamente. Es posible estimar cómo de cerca de una muestra de la cantidad es fundamental, por ejemplo con el pivote de las parcelas según lo recomendado por Canty et al. Estas pueden mostrar cómo las distribuciones de estimaciones bootstrap $(T^*-t)$ variar con $t$, o qué tan bien una transformación de $h$ proporciona una cantidad $(h(T^*)-h(t))$ que es fundamental. Métodos para mejorar el bootstrap de la Cei puede intentar encontrar una transformación de $h$ tal que $(h(T^*)-h(t))$ está más cerca fundamental para la estimación de la Cei en la escala transformada, luego se transforma de nuevo a la escala original.

El boot.ci() que proporciona la función studentized bootstrap CIs (llamado "bootstrap-t" por DiCiccio y Efron) y $BC_a$ CIs (sesgo corregido y acelerado, donde la "aceleración" se ocupa de sesgo) que son "de segundo orden preciso en que la diferencia entre el deseado y logrado una cobertura $\alpha$ (por ejemplo, 95% CI) está en el orden de $n^{-1}$, frente a los de primer orden precisa (orden de $n^{-0.5}$) para el empírica/básico y percentil métodos (Ref 1, pp 212-3; Ref. 4). Sin embargo, estos métodos requieren el seguimiento de las varianzas dentro de cada una de las muestras bootstrap, no sólo los valores individuales de la $T_j^*$ utilizado por los métodos más sencillos.

En casos extremos, se podría recurrir al arranque dentro de las muestras bootstrap sí mismos para proporcionar un adecuado ajuste de los intervalos de confianza. Esta "Doble Bootstrap" se describe en la Sección 5.6 de la Ref. 1, con otros capítulos en que libro lo que sugiere maneras de minimizar su extrema demandas computacionales.


  1. Davison, A. C. y Hinkley, D. V. Bootstrap y sus Métodos de Aplicación, Cambridge University Press, 1997.

  2. Efron, B. Bootstrap Métodos: Otra mirada a la jacknife, Ann. Estatismo. 7: 1-26, 1979.

  3. Fox, J. y Weisberg, S. de Arranque de los modelos de regresión en R. Un Apéndice R Compañero de la aplicación de la Regresión, Segunda Edición (Salvia, 2011). Revisión de 10 de octubre de 2017.

  4. DiCiccio, T. J. y Efron, B. Bootstrap intervalos de confianza. Stat. Sci. 11: 189-228, 1996.

  5. Canty, A. J., Davison, A. C., Hinkley, D. V., y Ventura, V. Bootstrap diagnósticos y remedios. Puede. J. Stat. 34: 5-27, 2006.

12voto

user39770 Puntos 9

Estoy siguiendo tu guía: "en Busca de una respuesta dibujo de creíble y/o fuentes oficiales."

El bootstrap fue inventado por Brad Efron. Creo que es justo decir que él es un distinguido estadista. Es un hecho que él es un profesor de la universidad de Stanford. Yo creo que hace sus opiniones creíble y oficial.

Creo que el Equipo de la Edad de la Inferencia Estadística, por Efron y Hastie es su último libro y lo que debe reflejar sus puntos de vista actuales. De la p. 204 (11.7, notas y detalles),

Bootstrap intervalos de confianza no son ni exacta ni óptimo , sino que apuntan para una amplia aplicabilidad combinado con casi exacta precisión.

Si usted lee el Capítulo 11, "Bootstrap" Intervalos de Confianza", que da 4 métodos de creación de bootstrap intervalos de confianza. El segundo de estos métodos es (11.2) El Percentil Método. La tercera y la cuarta son los métodos de variantes en el percentil método que intente corregir para lo Efron y Hastie describir como un sesgo en el intervalo de confianza y para que se dé una explicación teórica.

Como un aparte, no puedo decidir si hay alguna diferencia entre lo que el MIT personas de la llamada empírica bootstrap CI y percentil de CI. Yo puede tener un pedo cerebral, pero puedo ver que el método empírico como el percentil método después de sustrae una cantidad fija. Eso debería cambiar nada. Probablemente estoy mal de la lectura, pero yo estaría muy agradecido si alguien puede explicar cómo estoy mal de la comprensión de su texto.

Independientemente, el líder de la autoridad no parece tener un problema con el percentil de CI. Yo también creo que sus comentarios respuestas críticas de bootstrap CI que son mencionados por algunas personas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X