29 votos

¿En qué medida el bootstrapping aproxima la distribución muestral de un estimador?

Tras haber estudiado recientemente el bootstrap, se me ha planteado una cuestión conceptual que aún me desconcierta:

Tienes una población y quieres conocer un atributo de la población, es decir $\theta=g(P)$ donde utilizo $P$ para representar a la población. Este $\theta$ podría ser la media de la población, por ejemplo. Normalmente no se pueden obtener todos los datos de la población. Así que se extrae una muestra $X$ de tamaño $N$ de la población. Supongamos que tienes una muestra i.i.d. para simplificar. Entonces se obtiene el estimador $\hat{\theta}=g(X)$ . Desea utilizar $\hat{\theta}$ hacer inferencias sobre $\theta$ por lo que le gustaría conocer la variabilidad de $\hat{\theta}$ .

En primer lugar, existe un verdadero distribución muestral de $\hat{\theta}$ . Conceptualmente, se podrían extraer muchas muestras (cada una de ellas tiene tamaño $N$ ) de la población. Cada vez tendrá una realización de $\hat{\theta}=g(X)$ ya que cada vez tendrá una muestra diferente. Entonces, al final, podrá recuperar la verdadero distribución de $\hat{\theta}$ . De acuerdo, este es al menos el punto de referencia conceptual para la estimación de la distribución de $\hat{\theta}$ . Permítanme reformularlo: el objetivo final es utilizar diversos métodos para estimar o aproximar la verdadero distribución de $\hat{\theta}$ .

Ahora, aquí viene la pregunta. Normalmente, sólo tienes una muestra $X$ que contiene $N$ puntos de datos. A continuación, se vuelve a muestrear a partir de esta muestra muchas veces, y se obtendrá una distribución bootstrap de $\hat{\theta}$ . Mi pregunta es: ¿cuánto se parece esta distribución bootstrap a la verdadero distribución muestral de $\hat{\theta}$ ? ¿Hay alguna forma de cuantificarlo?

1 votos

Este tema tan relacionado pregunta contiene abundante información adicional, hasta el punto de hacer de esta pregunta una posible duplicación.

0 votos

En primer lugar, gracias a todos por responder tan rápidamente a mis preguntas. Es la primera vez que utilizo este sitio web. Nunca esperé que mi pregunta llamara la atención de nadie sinceramente. Tengo una pequeña pregunta, ¿qué es 'OP'? @Silverfish

0 votos

@Chen Jin: "OP" = original poster (es decir, ¡tú!). Disculpas por el uso de una abreviatura, que acepto que puede llevar a confusión.

23voto

Lev Puntos 2212

Bootstrap se basa en la convergencia de la cdf empírica a la cdf verdadera, es decir, $$\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^n\mathbb{I}_{X_i\le x}\qquad X_i\stackrel{\text{iid}}{\sim}F(x)$$ converge (como $n$ llega hasta el infinito) a $F(x)$ para cada $x$ . Por lo tanto, la convergencia de la distribución bootstrap de $\hat{\theta}(X_1,\ldots,X_n)=g(\hat{F}_n)$ es impulsada por esta convergencia que se produce a un ritmo $\sqrt{n}$ pour cada $x$ ya que $$\sqrt{n}\{\hat{F}_n(x)-F(x)\}\stackrel{\text{dist}}{\longrightarrow}\mathsf{N}(0,F(x)[1-F(x)])$$ aunque esta distribución de tasas y límites no se traslade automáticamente a $g(\hat{F}_n)$ . En la práctica, para evaluar la variabilidad de la aproximación, se puede realizar una evaluación bootstrap de la distribución de $g(\hat{F}_n)$ mediante doble bootstrap, es decir, mediante evaluaciones bootstrap.

Como actualización, He aquí una ilustración que utilizo en clase: enter image description here donde la lhs compara la verdadera cdf $F$ con la fdc empírica $\hat{F}_n$ pour $n=100$ observaciones y los gráficos rhs $250$ réplicas de la lhs, para 250 muestras diferentes, con el fin de medir la variabilidad de la aproximación de la cdf. En el ejemplo conozco la verdad y por tanto puedo simular a partir de la verdad para evaluar la variabilidad. En una situación realista, no conozco $F$ y por lo tanto tengo que empezar desde $\hat{F}_n$ para obtener un gráfico similar.

Nueva actualización: Este es el aspecto de la imagen del tubo cuando se parte de la fdc empírica: enter image description here

5 votos

El quid de esta respuesta es que el bootstrap funciona porque es una aproximación de muestras grandes . No creo que se haga suficiente hincapié en este punto.

2 votos

Quiero decir, "enfatizado con suficiente frecuencia en general"

0 votos

@Xi'an Muchas gracias. Me gustan los 2 últimos paneles, por lo que en este ejemplo, vamos a pretender que no sabemos la verdadera cdf, es decir, la curva roja en el lhs, sólo tengo la cdf empírica $\hat{F}$ de una muestra de $n=100$ . Luego hago un remuestreo a partir de esta muestra. Entonces produzco un gráfico similar al rhs. ¿Tendrá este nuevo gráfico un tubo más ancho que el tubo actual en su figura rhs actual? ¿Y el nuevo tubo seguirá centrado alrededor de la verdadera cdf, es decir, la curva roja como el tubo en su actual figura rhs?

20voto

Alexey Grigorev Puntos 1751

En Teoría de la Información, la forma típica de cuantificar la "proximidad" de una distribución a otra es utilizar Divergencia KL

Intentemos ilustrarlo con un conjunto de datos de cola larga muy sesgados: retrasos en las llegadas de aviones al aeropuerto de Houston (de hflights paquete). Sea $\hat \theta$ sea el estimador de la media. En primer lugar, hallamos la distribución muestral de $\hat \theta$ y, a continuación, la distribución bootstrap de $\hat \theta$

Aquí está el conjunto de datos:

enter image description here

La media real es de 7,09 min.

En primer lugar, realizamos un cierto número de muestreos para obtener la distribución muestral de $\hat \theta$ entonces tomamos una muestra y tomamos muchas muestras bootstrap de ella.

Por ejemplo, veamos dos distribuciones con un tamaño de muestra de 100 y 5000 repeticiones. Vemos visualmente que estas distribuciones están bastante separadas, y la divergencia KL es de 0,48.

enter image description here

Pero cuando aumentamos el tamaño de la muestra a 1000, empiezan a converger (la divergencia KL es de 0,11)

enter image description here

Y cuando el tamaño de la muestra es de 5000, están muy cerca (la divergencia KL es de 0,01)

enter image description here

Esto, por supuesto, depende de la muestra bootstrap que se obtenga, pero creo que se puede ver que la divergencia KL disminuye a medida que aumentamos el tamaño de la muestra, y por lo tanto la distribución bootstrap de $\hat \theta$ se aproxima a la distribución de la muestra $\hat \theta$ en términos de Divergencia KL. Para estar seguro, puedes intentar hacer varios bootstraps y tomar la media de la divergencia KL.

Aquí está el código R de este experimento: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794

5 votos

+1 y esto también demuestra que para cualquier tamaño de muestra dado (como por ejemplo 100), el sesgo bootstap puede ser grande e inevitable.

1 votos

¡Este es impresionante! Así que para que la distribución de $\hat{\theta}$ del bootstrap se aproxime a la distribución VERDADERA de $\hat{\theta}$ necesitamos una muestra de gran tamaño $N$ ¿verdad? Para cualquier tamaño de muestra fijo, la distribución generada a partir del bootstrap puede ser muy diferente de la distribución VERDADERA como menciona @amoeba.

0 votos

Mi siguiente pregunta es: Si he arreglado $N$ lo suficientemente grande, entonces hice 2 bootstraps, uno sólo resample $B=10$ veces, y la otra remuestra $B=10000$ . ¿Cuál es la diferencia entre la distribución de $\hat{\theta}$ ¿saliendo de estas 2 botas? Esta pregunta es esencialmente preguntando cuando nos fijamos $N$ ¿Cuál es el papel de $B$ en la generación de la distribución de $\hat{\theta}$ . @Grigorev

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X