42 votos

¿Cuándo es válida la estimación bootstrap del sesgo?

A menudo se afirma que el bootstrapping puede proporcionar una estimación del sesgo de un estimador.

Si $\hat t$ es la estimación de alguna estadística, y $\tilde t_i$ son las réplicas bootstrap (con $i\in\{1,\cdots,N\}$ ), entonces la estimación bootstrap del sesgo es \begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i \tilde{t}_i-\hat t \end{equation} que parece extremadamente simple y poderoso, hasta el punto de ser inquietante.

No me entra en la cabeza cómo es posible esto sin tener ya un estimador insesgado de la estadística. Por ejemplo, si mi estimador simplemente devuelve una constante que es independiente de las observaciones, la estimación anterior del sesgo es claramente inválida.

Aunque este ejemplo es patológico, no veo cuáles son los supuestos razonables sobre el estimador y las distribuciones que garantizarán que la estimación bootstrap sea razonable.

Intenté leer las referencias formales, pero no soy estadístico ni matemático, así que no se aclaró nada.

¿Puede alguien proporcionar un resumen de alto nivel sobre cuándo se puede esperar que la estimación sea válida? Si se conocen buenas referencias sobre el tema, también sería estupendo.


Editar:

La suavidad del estimador se cita a menudo como un requisito para que el bootstrap funcione. ¿Podría ser que también se requiera algún tipo de invertibilidad local de la transformación? El mapa constante claramente no satisface eso.

5voto

Rod Puntos 181

Creo que tu fórmula es errónea. La última $t$ debería tener una estrella en lugar de un sombrero: \begin{equation} \mathrm{bias}_t \approx \frac{1}{N}\sum_i \tilde{t}_i- t^* \end{equation}

Quiere utilizar el estadística real evaluado en la distribución empírica (esto suele ser fácil, ya que la muestra original es un conjunto finito), en lugar de la estimación. En algunos casos, pueden ser iguales (por ejemplo, la media empírica es la misma que la media muestral), pero no lo serán en general. Has dado un caso en el que son diferentes, pero un ejemplo menos patológico es el estimador insesgado habitual de la varianza, que no es lo mismo que la varianza poblacional cuando se aplica a una distribución finita.

Si la estadística $t$ no tiene sentido en la distribución empírica (por ejemplo, si asume una distribución continua), entonces no debería utilizar el bootstrapping vainilla. Puede sustituir la distribución empírica por una estimación de la densidad del núcleo (bootstrap suave), o si sabe que la distribución original se encuentra en alguna familia particular, puede sustituir la distribución empírica por la estimación máxima probable de esa familia (bootstrap paramétrico).

TL/DR: El método bootstrap no es mágico. Para obtener una estimación insesgada del sesgo, es necesario poder calcular el parámetro de interés exactamente en una distribución finita.

5voto

transmetro Puntos 41

El problema que describes es un problema de interpretación, no de validez. La estimación del sesgo bootstrap para su estimador constante no es inválida, de hecho es perfecta.

La estimación bootstrap del sesgo es entre un estimador $\hat\theta = s(x)$ y un parámetro $\theta = t(F),$ donde $F$ es una distribución desconocida y $x$ una muestra de $F$ . La función $t(F)$ es algo que en principio se podría calcular si se tuviera la población a mano. Algunas veces tomamos $s(x) = t(\hat F),$ la estimación de plug-in de $t(F)$ utilizando la distribución empírica $\hat F$ en el lugar de $F$ . Esto es presumiblemente lo que usted describe arriba. En todos los casos la estimación bootstrap del sesgo es $$ \mathrm{bias}_{\hat F} = E_{\hat F}[s(x^*)] - t(\hat F), $$ donde $x^*$ son muestras bootstrap de $x$ .

La constante $c$ es una estimación perfecta de esa misma constante: La población es $\sim F$ y la muestra $\sim \hat F$ la distribución empírica, que se aproxima a $F$ . Si pudiera evaluar $t(F) = c$ , usted obtendría $c$ . Cuando se calcula la estimación del complemento $t(\hat F) = c$ también se obtiene $c$ . No hay prejuicios, como era de esperar.

Un caso bien conocido en el que hay un sesgo en la estimación del complemento $t(\hat F)$ es en la estimación de la varianza, de ahí la corrección de Bessel. A continuación lo demuestro. La estimación del sesgo bootstrap no es tan mala:

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

En cambio, podríamos tomar $t(F)$ para ser la media de la población y $s(x) = c$ , situación en la que en la mayoría de los casos debería haber un claro sesgo:

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

De nuevo, la estimación bootstrap no es tan mala.

3voto

Dipstick Puntos 4869

Cometes un error y tal vez esa sea la razón por la que se confunde. Usted dice:

si mi estimador simplemente devuelve una constante que es independiente del observaciones, la estimación anterior del sesgo es claramente inválida

Bootstrap no se trata de cuánto está sesgado su método, sino de cuánto su resultados obtenido por alguna función, dado que sus datos están sesgados.

Si eliges un método estadístico apropiado para analizar tus datos, y se cumplen todos los supuestos de este método, y has hecho tus cálculos correctamente, entonces tu método estadístico debería proporcionarte la "mejor" estimación posible que se puede obtener utilizando sus datos .

La idea del bootstrap es muestrear los datos del mismo modo que se muestrean los casos de la población, es decir, es una especie de réplica del muestreo. Esto le permite obtener distribución aproximada (utilizando las palabras de Efrons) de su valor y, por tanto, para evaluar el sesgo de su estimación.

Sin embargo, lo que sostengo es que tu ejemplo es engañoso y por lo tanto no es el mejor ejemplo para discutir el bootstrap. Dado que hubo malentendidos por ambas partes, permítanme actualizar mi respuesta y escribirla de manera más formal para ilustrar mi punto.

Sesgo para $\hat{\theta}$ siendo la estimación del valor real $\theta$ se define como:

$$\text{bias}(\hat{\theta}_n) = \mathbb{E}_\theta(\hat{\theta}_n) - \theta$$

donde:

$$\hat{\theta}_n = g(x_1,x_2,...,x_n)$$

donde $g(\cdot)$ es el estimador.

Como señala Larry Wasserman en su libro "Todas las estadísticas" :

Un requisito razonable para un estimador es que converja al verdadero valor del parámetro a medida que recogemos más y más datos. Este requisito se cuantifica con la siguiente definición:
6.7 Definición. Un estimador puntual $\hat{\theta}_n$ de un parámetro $\theta$ es consistente si $\hat{\theta}_n \overset{P}{\rightarrow} \theta$ .

Estimador constante, siendo una función constante de $x$ : $g(X) = \lambda$ hace no cumple este requisito ya que es independiente de los datos y el aumento del número de observaciones no haría que se acercara al valor real $\theta$ (a no ser que sea por pura suerte o por tener una a priori supuestos sobre $\lambda$ es que $\lambda = \theta$ ).

El estimador constante no cumple con el requisito básico de ser un estimador razonable y, por lo tanto, es imposible estimar su sesgo porque $\hat{\theta}_n$ no se acerca a $\theta$ incluso con $n \rightarrow \infty$ . Es imposible hacerlo con bootstrap y con cualquier otro método, así que no es un problema con bootstrap.

1voto

StasK Puntos 19497

Me parece útil pensar en los procedimientos de bootstrap en términos de las funciones de las distribuciones sobre las que operan -- di un ejemplo en esta respuesta a una pregunta de arranque diferente.

La estimación que has dado es lo que es: una estimación. Nadie dice que no sufra los problemas que pueden tener las estimaciones estadísticas. Por ejemplo, le dará una estimación de sesgo distinta de cero para la media de la muestra, que todos sabemos que es insesgada para empezar. Uno de los problemas de este estimador del sesgo es que sufre la variabilidad del muestreo cuando el bootstrap se implementa como Monte Carlo en lugar de una enumeración completa de todas las submuestras posibles (y nadie que ese bootstrap teórico en la práctica, de todos modos).

Como tal, una implementación de Monte Carlo del bootstrap no es posible, y hay que utilizar un esquema de bootstrap diferente. Davison et. al. (1986) ha demostrado cómo crear un esquema bootstrap diferente que restringe las extracciones aleatorias para producir muestras equilibradas: si se crea $B$ réplicas bootstrap, entonces cada uno de los elementos originales tiene que ser utilizado exactamente $B$ veces para el equilibrio de primer orden. (El equilibrio de segundo orden, que funciona mejor para los segundos momentos de los estimandos, se analiza con más detalle en Graham et. al. (1990) .)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X