3 votos

¿Qué características de la distribución de un estadístico de prueba pueden inferirse utilizando un bootstrap?

ACTUALIZACIÓN 06/2020: Acabo de retomar esta pregunta y me he dado cuenta de que hay una respuesta bastante clara. En concreto, la condición requerida es la integrabilidad uniforme. Básicamente, la clase de funciones de la distribución que son uniformemente integrables puede inferirse utilizando un bootstrap. Sin la integrabilidad uniforme, todas las apuestas están canceladas. Estoy bastante seguro, aunque no lo recuerdo, de que hay un teorema en uno de los libros de Brillinger para esta situación.

Preparado: Dejemos que $p_n(x) = \mathbb{P}(S_n \leq x)$ y que $p_n^*(x) = \mathbb{P}^*(S_n^* - S_n \leq x)$ , donde $S_n$ es una estadística de prueba de media cero que puede ser válida para el bootstrap, por ejemplo, una media de la muestra, y $S_n^*$ es una re-muestra bootstrap de $S_n$ . Tenga en cuenta que $\mathbb{P}^*$ implica que la probabilidad está condicionada a los datos subyacentes. Suponiendo que se cumplan las condiciones de algún teorema del bootstrap, por ejemplo, el bootstrap estacionario, tenemos el principal resultado del bootstrap:

\begin{equation} \sup_{x \in \mathbb{R}} | p_n(x) - p_n^*(x)| \overset{\mathbb{P}}{\rightarrow} 0, \: \textrm{as} \: n \rightarrow \infty \end{equation}

Mi pregunta tiene dos partes:

Pregunta 1: El principal resultado del bootstrap se suele utilizar para afirmar que los intervalos de confianza del bootstrap son asintóticamente válidos. ¿Podemos hacer esta afirmación gracias al teorema de Slutsky? Si es así, ¿por qué la continuidad no es un problema?

Actualmente, tengo entendido que el argumento funciona de la siguiente manera:

1) Para algún punto fijo $x \in \mathbb{R}$ utilizamos el resultado anterior para afirmar que $p_n^*(x) \overset{\mathbb{P}}{\rightarrow} p_n(x)$ , como $n \rightarrow \infty$ .

2)Utilice el teorema de Slutsky para afirmar que $g(p_n^*(x)) \overset{\mathbb{P}}{\rightarrow} g(p_n(x))$ , como $n \rightarrow \infty$ para alguna función de Borel $g(a)$ que es continua en $a$ .

3) Elija $g(a)$ para ser la función cuantílica, es decir $g(F(x)) = \inf \{ x \in \mathbb{R} : \lambda \leq F(x) \}$ donde $F(x)$ es una CDF y $\lambda \in (0, 1)$ . El resultado es el siguiente.

El problema de este argumento, tal y como está, es que, para las funciones generales de la CDF, sólo se garantiza que la función cuantil sea continua a la izquierda. Supongo que se puede evitar este problema aprovechando el hecho de que $p_n(x)$ y $p_n^*(x)$ convergen a la Normal, que tiene una CDF continua, pero nunca he visto esto formalmente en ninguna parte, así que me pregunto si mi razonamiento es realmente correcto.

Pregunta 2: Habiendo establecido que podemos construir intervalos de confianza asintóticamente válidos, me pregunto qué otras características de la distribución de $S_n$ ¿podemos estimar de forma coherente?

Sé que la mayoría de los teoremas de arranque también incluyen un resultado de la forma $\mathbb{V}^*S_n^* \overset{\mathbb{P}}{\rightarrow} \mathbb{V} S_n$ , como $n \rightarrow \infty$ Así que eso se encarga de la varianza. ¿Qué pasa con otros momentos? Por ejemplo, ¿podemos deducir del resultado principal del bootstrap que $\mathbb{E}^* S_n^{*4} \overset{\mathbb{P}}{\rightarrow} \mathbb{E} S_n^4$ , como $n \rightarrow \infty$ ? Al igual que en el caso de los intervalos de confianza, intenté demostrarlo utilizando el teorema de Slutsky, pero no me sentí cómodo con la expresión resultante:

\begin{equation} \int x^4 dp_n^*(x) \overset{\mathbb{P}}{\rightarrow} \int x^4 dp_n(x), \: \mathrm{as} \: n \rightarrow \infty , \end{equation}

ya que no me queda claro que no estemos acumulando muchos "pequeños" errores en la integral.

EDITAR: Hice la pregunta aquí ya que es sobre el bootstrap. Sin embargo, como también se trata de la teoría de la probabilidad, si los usuarios consideran que sería más apropiado en las matemáticas de intercambio de pilas, por favor, hágamelo saber.

3voto

La esencia del método boostrap no paramétrico es utilizar la FED como si fuera la verdadera distribución y luego realizar un muestreo/análisis monte carlo de la FED. Por lo tanto, mientras la EDF sea una buena representación de la verdadera CDF, la distribución de muestreo boostrap será una buena aproximación de la verdadera distribución de muestreo y, por lo tanto, cualquier estadística derivada de esta distribución de muestreo aproximada será aproximadamente correcta en la medida en que los datos originales representen con precisión la verdadera distribución subyacente. Por lo tanto, a medida que aumenta el tamaño de la muestra, tanto la FED como los estadísticos muestrales asociados convergen a los valores reales. El teorema de convergencia que he citado es útil para las funciones continuas, pero en realidad no es necesario. Todo lo que necesitamos saber es que a medida que aumenta el tamaño de la muestra, el error estadístico al tratar la FED como la FCD se aproxima a cero por la ley de los grandes números. Por lo tanto, la simulación a partir de esta distribución estimada converge a la simulación a partir de la verdadera distribución a medida que aumenta el tamaño de la muestra.

La principal advertencia a esto es cuando su estadística de muestreo no converge uniformemente al valor verdadero, siendo la estadística de orden maximal un ejemplo clásico.

Por lo tanto, la respuesta a su pregunta es que cualquier cantidad de su distribución de muestreo puede estimarse a partir de la distribución de muestreo boostrap siempre que la propia distribución de muestreo bootstrap converja uniformemente a la verdadera distribución de muestreo. A continuación encontrará algunos enlaces, algunos de los cuales contienen otros enlaces a documentos muy interesantes, sobre cuándo no se cumple esta condición.

Este papel la enciclopedia de las matemáticas tiene una buena entrada sobre boostrap también el fracaso. Esto también se ha discutido anteriormente en Cross validado: ¿Cuáles son los ejemplos en los que falla un "bootstrap ingenuo"?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X