27 votos

¿Existe algún resultado que establezca que el bootstrap es válido si y sólo si la estadística es suave?

En todo momento supondremos que nuestra estadística $\theta(\cdot)$ es una función de algunos datos $X_1, \ldots X_n$ que se extrae de la función de distribución $F$ la función de distribución empírica de nuestra muestra es $\hat{F}$ . Así que $\theta(F)$ es la estadística considerada como variable aleatoria y $\theta(\hat{F})$ es la versión bootstrap de la estadística. Utilizamos $d_\infty$ como la distancia KS

Existen resultados "si y sólo si" para la validez del bootstrap si la estadística es una estadística lineal simple. Por ejemplo el Teorema 1 de Mammen "¿Cuándo funciona el bootstrap?".

Si $\theta(F) = \frac{1}{n} \sum_{i-1}^n h_n(X_i)$ para una función arbitraria $h_n$ entonces el bootstrap funciona en el sentido de que $$d_\infty\big[\mathscr{L}(\theta(\hat{F})-\hat{t}_n), \mathscr{L}(\theta(F)-t_n)\big] \underset{p}{\rightarrow} 0$$ si y sólo si existe $\sigma_n$ y $t_n$ tal que $$d_\infty\big[\mathscr{L}(\theta(F)-t_n), N(0, \sigma_n^2)\big]\underset{p}{\rightarrow} 0$$ Donde podemos definir $\hat{t_n}$ en función de nuestra muestra y $t_n = \mathbb{E}(\hat{t}_n)$

También hay resultados más generales de que el bootstrap funciona para estadísticas generales, por ejemplo el Teorema 1.6.3 de Subsampling de Politis Romano y Wolf:

Supongamos que $F$ se extrae de la clase de todas las distribuciones con soporte finito. Supongamos que el estadístico $\theta(\cdot)$ es diferenciable de Frechet en $F$ con respecto a la norma suprema y la derivada $g_F$ satisface $0 < \textrm{Var}_F[g_F(x)] < \infty$ . Entonces $\theta(F)$ es asintóticamente normal y el bootstrap funciona en el sentido del teorema anterior.

Me gustaría una versión "si y sólo si" del segundo teorema. Esto requerirá una noción de suavidad diferente de la diferenciabilidad de Frechet porque Politis, Romano y Wolf (1999) muestran que la mediana de la muestra no es diferenciable de Frechet pero el bootstrap sigue funcionando. Sin embargo, la mediana de la muestra sigue siendo una función suave de los datos.

En Mammen se comenta de manera informal que la suavidad es necesaria:

Normalmente la linealidad asintótica local parece ser necesaria para la consistencia del bootstrap

La citación es para:

van Zwet, W (1989). Ponencia pronunciada en la conferencia "Asymptotic methods for computer intensive procedures in statistics" en Olberwolfach.

Pero no encuentro rastro de esta charla, aparte de un puñado de citas.

14voto

VinceM Puntos 26

$\blacksquare$ (1)¿Por qué los estimadores cuantílicos no son diferenciables de Frechet pero su estimador bootstrap sigue siendo consistente?

Se necesita la diferenciabilidad Hadamard (o diferenciabilidad compacta dependiendo de la fuente de referencia) como condición suficiente para que el bootstrap funcione en ese caso, la mediana y cualquier cuantil son diferenciables Hadamard. La diferenciabilidad de Frechet es demasiado fuerte en la mayoría de las aplicaciones.

Dado que normalmente basta con discutir un espacio polaco, allí se desea un funcional localmente lineal para aplicar un argumento típico de compacidad para extender su resultado de consistencia a la situación global. Véase también el comentario sobre la linealización más abajo.

El teorema 2.27 de [Wasserman] te dará una intuición de cómo la derivada de Hadamard es una noción más débil. Y los teoremas 3.6 y 3.7 de [Shao&Tu] darán una condición suficiente para la consistencia débil en términos de $\rho$ -Diferenciabilidad Hadamard del funcional estadístico $T_{n}$ con tamaño de observación $n$ .

$\blacksquare$ (2)¿Qué afectará a la coherencia de los estimadores bootstrap?

[Shao&Tu]pp.85-86 ilustran situaciones en las que puede producirse una incoherencia de los estimadores bootstrap.

(1)El bootstrap es sensible al comportamiento de la cola de la población $F$ . La coherencia de $H_{BOOT}$ requiere condiciones de momento más estrictas que las necesarias para la existencia del límite de $H_0$ .

(2)La consistencia del estimador bootstrap requiere un cierto grado de suavidad de la estadística dada (funcional) $T_{n}$ .

(3)El comportamiento del estimador bootstrap depende a veces del método utilizado para obtener los datos bootstrap.

Y en Sec 3.5.2 de [Shao&Tu] revisaron el ejemplo del cuantil usando un kernel de suavizado $K$ . Tenga en cuenta que los momentos son funcionales lineales, la cita en su pregunta "Típicamente la linealidad asintótica local parece ser necesaria para la coherencia de bootstrap" está requiriendo un cierto nivel de analiticidad de la funcional, que podría ser necesaria porque si eso falla se puede crear algún caso patológico como la función de Weierstrass (que es continua pero no diferenciable en ninguna parte).

$\blacksquare$ (3)¿Por qué parece necesaria la linealidad local para garantizar la coherencia del estimador bootstrap?

En cuanto al comentario "Típicamente la linealidad asintótica local parece ser necesaria para la consistencia del bootstrap" hecho por Mammen como has mencionado. Un comentario de [Shao&Tu]p.78 es el siguiente, como ellos comentaron la linealización (global) es solo una técnica que facilita la prueba de consistencia y no indica ninguna necesidad:

Linealización es otro importante técnica para demostrar la consistencia de los estimadores bootstrap, ya que los resultados de las estadísticas lineales suelen estar disponibles o pueden establecerse mediante las técnicas introducidas anteriormente. Supongamos que una estadística dada Tn puede aproximarse mediante una variable aleatoria lineal $\bar{Z_n}=\frac{1}{n}\sum_{i=1}^{n}\phi(X_n)$ (donde $\phi(X)$ es una estadística lineal en $X$ ), es decir (3.19) $$T_n=\theta+\bar{Z_n}+o_{P}(\frac{1}{\sqrt{n}})$$ Sea $T_n^{*}$ y $\bar{Z_n^{*}}$ sean los análogos bootstrap de $T_n$ y $\bar{Z_n}$ , respectivamente, basándose en la muestra bootstrap $\{X_1^{*},\cdots,X_n^{*}\}$ . Si podemos establecer un resultado para $T_n^{*}$ similar a (3.19), es decir (3.20) $$T_n^{*}=\theta+\bar{Z_n}^{*}+o_{P}(\frac{1}{\sqrt{n}})$$ entonces el límite de $H_{BOOT}(x)$ (donde $x$ es el valor del parámetro) $=P\{\sqrt{n}(T_n-T_n^{*}) \leq x\}$ es la misma que la de $P\{\sqrt{n}(\bar{Z_n}-\bar{Z_n}^{*}) \leq x\}$ Hemos reducido así el a un problema de "media muestral". $\bar{Z_n}$ cuyo estimador de la distribución bootstrap puede demostrarse que es consistente utilizando los métodos de las secciones 3.1.2-3.1.4.

Y dieron un ejemplo 3.3 de la obtención de la consistencia bootstrap para bootstrapping tipo MLE. Sin embargo, si la linealidad global es eficaz de esa manera, es difícil imaginar cómo se podría demostrar la consistencia sin linealidad local. Así que supongo que eso es lo que Mammen quería decir.

$\blacksquare$ (4)Otras observaciones

Más allá de la discusión proporcionada por [Shao&Tu] más arriba, creo que lo que quieres es una condición de caracterización de la consistencia de los estimadores bootstrap.

Lamentablemente, no conozco una caracterización de la consistencia de un estimador bootstrap para una clase muy general de distribución en $M(X)$ . Incluso si la hay, creo que requiere no sólo suavidad de $T$ . Pero existe una caracterización para cierta clase de modelos estadísticos como $CLT$ en [Gine&Zinn]; o comúnmente clase compactamente soportada (directamente de la discusión anterior) definida sobre un espacio polaco.

Además, la distancia Kolmogorov-Smirnov, según mi gusto es la distancia equivocada si nuestro enfoque es la asintótica clásica(en contraste con la asintótica "uniforme" para procesos empíricos). Dado que la distancia KS no induce la topología débil que es un terreno natural para el estudio del comportamiento asintótico, la topología débil en el espacio $M(X)$ es inducida por la distancia Lipschitz acotada (O distancia Prohorov-Levy) como la adoptada por [Huber] y muchos otros autores cuando el foco no es el proceso empírico. A veces la discusión del comportamiento límite del proceso empírico también involucra la distancia BL como [Gine&Zinn].

Odio ser cínico, pero sigo pensando que éste no es el único escrito estadístico que "cita del vacío". Al decir esto, simplemente creo que la cita de la charla de van Zwet es muy irresponsable, aunque van Zwet es un gran erudito.

$\blacksquare$ Referencia

[Wasserman]Wasserman, Larry. All of Nonparametric Statistics, Springer, 2010.

[Shao&Tu]Shao, Jun, y Dongsheng Tu. The jackknife and bootstrap. Springer, 1995.

[Gine&Zinn]Giné, Evarist, y Joel Zinn. "Bootstrapping general empirical measures". The Annals of Probability (1990): 851-869.

[Huber]Huber, Peter J. Robust statistics. Wiley, 1985.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X