18 votos

Preguntas sobre el bootstrap paramétrico y no paramétrico

Estoy leyendo el capítulo sobre Estadísticas Frecuentes del libro de Kevin Murphy " Aprendizaje automático - Una perspectiva probabilística ". La sección sobre el arranque dice:

El bootstrap es una sencilla técnica de Monte Carlo para aproximar la distribución de muestreo. Es especialmente útil en los casos en los que la estimador es una función compleja de los parámetros reales.

La idea es sencilla. Si conociéramos los verdaderos parámetros $θ^∗$ Podríamos generar muchos (digamos $S$ ) conjuntos de datos falsos, cada uno de ellos de tamaño $N$ de la verdadera distribución, $x_i^s \sim p (·| θ^∗ )$ , para $s = 1 : S, i = 1 : N$ . Entonces podríamos calcular nuestro estimador a partir de cada muestra, $\hat{\theta^s}=f (x^s_{1:N})$ y utilizar la distribución empírica de las muestras resultantes como nuestra estimación de la distribución muestral. Dado que $\theta$ se desconoce, la idea de la bootstrap paramétrico es generar las muestras utilizando $\hat{\theta}(D)$ en su lugar.

Una alternativa, denominada bootstrap no paramétrico es tomar una muestra del $x^s_i$ (con sustitución) de los datos originales $D$ y luego calcular la distribución inducida como antes. Algunos métodos para acelerar acelerar el bootstrap cuando se aplica a conjuntos de datos masivos se discuten en (Kleiner et al. 2011).

  • 1 . El texto dice:

    Si conociéramos los verdaderos parámetros $\theta^*$ ...podríamos calcular nuestro estimador de cada muestra, $\hat{\theta^s}$ ...

        pero para qué voy a utilizar el estimador de cada muestra si ya conocer los verdaderos parámetros $\theta^*$ ?

  • 2 . Además, ¿cuál es la diferencia aquí entre la distribución empírica y la distribución muestral?

  • 3 . Por último, no entiendo muy bien la diferencia entre paramétrico y no paramétrico de este texto. Ambos infieren $\theta$ del conjunto de observaciones $D$ Pero, ¿cuál es exactamente la diferencia?

17voto

guest47 Puntos 186

La respuesta dada por miura no es del todo exacta, así que respondo a esta vieja pregunta para la posteridad:

(2). Son cosas muy diferentes. La CDF empírica es una estimación de la CDF (distribución) que generó los datos. Precisamente, es la FCD discreta que asigna la probabilidad $1/n$ a cada punto de datos observado, $\hat{F}(x) = \frac{1}{n}\sum_{i=1}^n I(X_i\leq x)$ para cada $x$ . Este estimador converge a la verdadera fdc: $\hat{F}(x) \to F(x) = P(X_i\leq x)$ casi seguramente para cada $x$ (de hecho, de manera uniforme).

La distribución muestral de una estadística $T$ es, en cambio, la distribución de la estadística que se espera ver en una experimentación repetida. Es decir, usted realiza su experimento una vez y recoge los datos ${X_1,\ldots,X_n}$ . $T$ es una función de sus datos: $T = T(X_1,\ldots,X_n)$ . Ahora, supongamos que se repite el experimento y se recogen datos ${X'_1,\ldots,X'_n}$ . Recalculando T en la nueva muestra se obtiene $T' = T({X'_1,\ldots,X'_n})$ . Si recogiéramos 100 muestras tendríamos 100 estimaciones de $T$ . Estas observaciones de $T$ forman la distribución muestral de $T$ . Es una distribución verdadera. A medida que el número de experimentos llega al infinito su media converge a $E(T)$ y su varianza a $Var(T)$ .

En general, por supuesto, no repetimos experimentos como éste, sólo vemos una instancia de $T$ . Averiguar cuál es la varianza de $T$ es a partir de una única observación es muy difícil si no se conoce la función de probabilidad subyacente de $T$ a priori. El Bootstrapping es una forma de estimar esa distribución muestral de $T$ mediante la ejecución artificial de "nuevos experimentos" sobre los que calcular nuevas instancias de $T$ . Cada nueva muestra es en realidad una nueva muestra de los datos originales. Que esto te proporcione más información que la que tienes en los datos originales es misterioso y totalmente asombroso.

(1). Está en lo cierto: no se haría esto. El autor trata de motivar el bootstrap paramétrico describiéndolo como "lo que harías si conocieras la distribución" pero sustituyéndolo por un estimador muy bueno de la función de distribución: la fdc empírica.

Por ejemplo, suponga que sabe que su estadística de prueba $T$ se distribuye normalmente con media cero y varianza uno. ¿Cómo estimarías la distribución muestral de $T$ ? Bueno, ya que conoces la distribución, una forma tonta y redundante de estimar la distribución muestral es usar R para generar unas 10.000 variables aleatorias normales estándar, luego tomar su media y varianza muestral, y usarlas como nuestras estimaciones de la media y varianza de la distribución muestral de $T$ .

Si nos no conocer a priori los parámetros de $T$ pero sabemos que se distribuye normalmente, lo que podemos hacer en su lugar es generar unas 10.000 muestras de la fdc empírica, calcular $T$ en cada uno de ellos, y luego tomar la media y la varianza muestral de estos 10.000 $T$ y utilizarlos como nuestras estimaciones del valor esperado y la varianza de $T$ . Dado que la fdc empírica es un buen estimador de la fdc verdadera, los parámetros de la muestra deberían converger a los parámetros verdaderos. Esto es el bootstrap paramétrico: se plantea un modelo sobre el estadístico que se quiere estimar. El modelo está indexado por un parámetro, por ejemplo $(\mu, \sigma)$ que se estima a partir de un muestreo repetido de la ecdf.

(3). El bootstrap no paramétrico ni siquiera requiere saber a priori que $T$ se distribuye normalmente. En su lugar, simplemente se extraen muestras repetidas de la ecdf, y se calcula $T$ en cada uno de ellos. Después de haber extraído unas 10.000 muestras y calculado 10.000 $T$ s, puede trazar un histograma de sus estimaciones. Se trata de una visualización de la distribución muestral de $T$ . El bootstrap no paramétrico no le dirá que la distribución de muestreo es normal, o gamma, etc., pero le permite estimar la distribución de muestreo (normalmente) con la precisión necesaria. Hace menos suposiciones y proporciona menos información que el bootstrap paramétrico. Es menos preciso cuando el supuesto paramétrico es verdadero, pero más exacto cuando es falso. El uso de uno u otro en cada situación depende totalmente del contexto. Es cierto que la gente está más familiarizada con el bootstrap no paramétrico, pero a menudo una suposición paramétrica débil hace que un modelo completamente intratable sea susceptible de estimación, lo cual es encantador.

1 votos

Estoy confundido acerca de su descripción del bootstrap paramétrico "lo que podemos hacer en su lugar es generar 10.000 muestras más o menos de la cdf empírica" Mi comprensión del bootstrap paramétrico es que se muestrea a partir de un modelo que se ajusta a los datos. Esto es lo que describe la cita original del libro de Murphy. Podría estar leyendo mal, pero el muestreo a partir de la FCD empírica de los datos sería un muestreo directo de los puntos de datos, que sería el bootstrap estándar, ¿no?

0 votos

@user20160 estás interpretando mal el "En cambio" de la respuesta: está describiendo el bootstrap no paramétrico, no el paramétrico.

5voto

pat Puntos 141

Aprecio mucho el esfuerzo aportado por guest47, pero no estoy del todo de acuerdo con su respuesta, en algunos aspectos menores. No plantearía directamente mis desacuerdos, sino que los reflejaría en esta respuesta.

  1. En muchos casos, es redundante calcular $\hat\theta s$ cuando ya conocemos el verdadero parámetro subyacente $\theta*$ . Sin embargo, sigue siendo útil cuando queremos ver la exactitud y la precisión de $\hat\theta s$ en la estimación de $\theta*$ . Además, el primer párrafo de tu pasaje citado te facilitará la comprensión de la noción de "bootstrap paramétrico", que tocaré poco después.

  2. Guest47 da una buena respuesta. No es necesario elaborar más.

  3. En el bootstrapping paramétrico, lo que se tiene son los datos observados D. Se elabora un modelo paramétrico para ajustarse a los datos, y se utilizan estimadores $\hat\theta$ (que es una función de los datos D) para los parámetros verdaderos $\theta*$ . Luego se generan miles de conjuntos de datos a partir del modelo paramétrico con $\hat\theta$ y estimar $\hat\theta s$ para estos modelos. En el bootstrapping no paramétrico, se utiliza directamente D, se muestrea (durante miles de veces) exactamente a partir de D, en lugar de a partir de los datos generados.

3voto

RobW Puntos 1798

No soy un experto, pero por si sirve de algo:

  1. Porque te interesa la distribución muestral, como mencionas en la primera frase de tu cita.

  2. La distribución empírica es la distribución que se ve en su número finito de muestras. La distribución muestral es la que verías si tomaras un número infinito de muestras.

No puedo responder a la 3. Siempre he entendido lo que se describe aquí como bootstrap no paramétrico como "el" bootstrap.

Si aún no has comprendido del todo el concepto de la distribución de muestreo, hay un rosca aquí que presenta un código R muy ilustrativo.

5 votos

La diferencia entre el bootstrap paramétrico y el no paramétrico es que el primero genera sus muestras a partir de la distribución (supuesta) de los datos, utilizando los valores estimados de los parámetros, mientras que el segundo genera sus muestras mediante un muestreo con reemplazo a partir de los datos observados -sin suponer un modelo paramétrico.

0 votos

@jbowman - el bootstrap "no paramétrico" hace tienen un modelo subyacente, sólo que es un modelo diferente al utilizado para motivar la estimación del parámetro.

0 votos

@miura Por favor, no vandalices tu respuesta. Si quieres que el preguntador elija una respuesta diferente, coméntalo debajo de la pregunta. Si quieres que se elimine tu respuesta, márcala y pídela.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X