70 votos

Supuestos relativos a las estimaciones bootstrap de la incertidumbre

Aprecio la utilidad del bootstrap para obtener estimaciones de incertidumbre, pero una cosa que siempre me ha molestado de él es que la distribución correspondiente a esas estimaciones es la distribución definida por la muestra. En general, parece una mala idea creer que nuestras frecuencias muestrales se parecen exactamente a la distribución subyacente, así que ¿por qué es sensato/aceptable derivar estimaciones de incertidumbre basadas en una distribución en la que las frecuencias muestrales definen la distribución subyacente?

Por otro lado, puede que esto no sea peor (posiblemente mejor) que otros supuestos distributivos que solemos hacer, pero aún así me gustaría entender un poco mejor la justificación.

61voto

giulio Puntos 166

Hay varias formas de aplicar el bootstrap. Los dos enfoques más básicos son los denominados bootstrap "no paramétrico" y "paramétrico". El segundo supone que el modelo que se utiliza es (esencialmente) correcto.

Centrémonos en la primera. Vamos a suponer que tienes una muestra aleatoria $X_1, X_2, \ldots, X_n$ distribuido según la función de distribución $F$ . (Suponer lo contrario requiere modificar los planteamientos.) Dejemos que $\hat{F}_n(x) = n^{-1} \sum_{i=1}^n \mathbf{1}(X_i \leq x)$ sea la función de distribución acumulativa empírica. Gran parte de la motivación del bootstrap proviene de un par de hechos.

La desigualdad Dvoretzky-Kiefer-Wolfowitz

$$ \renewcommand{\Pr}{\mathbb{P}} \Pr\big( \textstyle\sup_{x \in \mathbb{R}} \,|\hat{F}_n(x) - F(x)| > \varepsilon \big) \leq 2 e^{-2n \varepsilon^2} \> . $$

Lo que esto muestra es que la función de distribución empírica converge uniformemente a la verdadera función de distribución exponencialmente rápido en la probabilidad. De hecho, esta desigualdad, junto con el lema de Borel-Cantelli, muestra inmediatamente que $\sup_{x \in \mathbb{R}} \,|\hat{F}_n(x) - F(x)| \to 0$ casi seguro.

No hay condiciones adicionales en la forma de $F$ para garantizar esta convergencia.

Heurísticamente, entonces, si estamos interesados en alguna función $T(F)$ de la función de distribución que es suave , entonces esperamos que $T(\hat{F}_n)$ para estar cerca de $T(F)$ .

(Puntualmente) Imparcialidad de $\hat{F}_n(x)$

Por simple linealidad de la expectativa y la definición de $\hat{F}_n(x)$ para cada $x \in \mathbb{R}$ ,

$$ \newcommand{\e}{\mathbb{E}} \e_F \hat{F}_n(x) = F(x) \>. $$

Supongamos que estamos interesados en la media $\mu = T(F)$ . Entonces la insesgadez de la medida empírica se extiende a la insesgadez de los funcionales lineales de la medida empírica. Entonces, $$ \e_F T(\hat{F}_n) = \e_F \bar{X}_n = \mu = T(F) \> . $$

Así que $T(\hat{F}_n)$ es correcta en promedio y como $\hat{F_n}$ se acerca rápidamente $F$ entonces (heurísticamente), $T(\hat{F}_n)$ se acerca rápidamente $T(F)$ .

Para construir un intervalo de confianza ( que es, esencialmente, de lo que se trata el bootstrap ), podemos utilizar el teorema del límite central, la consistencia de los cuantiles empíricos y el método delta como herramientas para pasar de simples funcionales lineales a estadísticas de interés más complicadas.

Las buenas referencias son

  1. B. Efron, Métodos Bootstrap: Otra mirada al jackknife , Ann. Stat. , vol. 7, nº 1, 1-26.
  2. B. Efron y R. Tibshirani, Introducción a Bootstrap Chapman-Hall, 1994.
  3. G. A. Young y R. L. Smith, Fundamentos de la inferencia estadística , Cambridge University Press, 2005, Capítulo 11 .
  4. A. W. van der Vaart, Estadísticas asintóticas , Cambridge University Press, 1998, Capítulo 23 .
  5. P. Bickel y D. Freedman, Algunas teorías asintóticas para el bootstrap . Ann. Stat. , vol. 9, nº 6 (1981), 1196-1217.

12voto

Eero Puntos 1612

He aquí un enfoque diferente para pensar en ello:

Partiendo de la teoría en la que conocemos la distribución verdadera, podemos descubrir propiedades de la estadística muestral simulando a partir de la distribución verdadera. Así es como Gosset desarrolló la distribución t y la prueba t, muestreando a partir de normales conocidas y calculando la estadística. Esto es en realidad una forma de bootstrap paramétrico. Nótese que estamos simulando para descubrir el comportamiento de la estadística (a veces en relación con los parámetros).

Ahora bien, si no conocemos la distribución de la población, tenemos una estimación de la distribución en la distribución empírica y podemos muestrear a partir de ella. Al muestrear de la distribución empírica (que es conocida) podemos ver la relación entre las muestras bootstrap y la distribución empírica (la población para la muestra bootstrap). Ahora deducimos que la relación entre las muestras bootstrap y la distribución empírica es la misma que entre la muestra y la población desconocida. Por supuesto, la traducción de esta relación dependerá de la representatividad de la muestra con respecto a la población.

Recuerde que no estamos utilizando las medias de las muestras bootstrap para estimar la media de la población, sino que utilizamos la media de la muestra para ello (o cualquiera que sea la estadística de interés). Pero estamos utilizando las muestras bootstrap para estimar las propiedades (dispersión, sesgo) del proceso de muestreo. Y utilizar el muestreo de una población conocida (que esperamos que sea representativa de la población de interés) para aprender los efectos del muestreo tiene sentido y es mucho menos circular.

8voto

pkaeding Puntos 12935

El principal truco (y la picadura) del bootstrapping es que se trata de una teoría asintótica: si tienes una muestra infinita para empezar, la distribución empírica va a estar tan cerca de la distribución real que la diferencia es insignificante.

Desgraciadamente, el bootstrapping se aplica a menudo en muestras de pequeño tamaño. La sensación común es que el bootstrapping ha demostrado funcionar en algunas situaciones muy poco asintóticas, pero hay que tener cuidado de todos modos. Si el tamaño de la muestra es demasiado pequeño, de hecho se está trabajando condicionado a que la muestra sea una "buena representación" de la distribución real, lo que lleva muy fácilmente a razonar en círculos :-)

5voto

Derek Swingley Puntos 3851

Yo argumentaría no desde la perspectiva de "asintóticamente, la distribución empírica se acercará a la distribución real" (lo cual, por supuesto, es muy cierto), sino desde una "perspectiva de largo plazo". En otras palabras, en cualquier caso particular, la distribución empírica derivada por el bootstrap estará desviada (a veces desplazada demasiado hacia aquí, a veces desplazada demasiado hacia allá, a veces demasiado sesgada hacia aquí, a veces demasiado sesgada hacia allá), pero de media será una buena aproximación a la distribución real. Del mismo modo, sus estimaciones de incertidumbre derivadas de la distribución bootstrap estarán fuera de lugar en cualquier caso particular, pero de nuevo, en promedio, serán (aproximadamente) correctas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X