16 votos

Manos a la obra: el problema de desbordamiento

Supongamos que uno realiza la llamada no paramétrica bootstrap, dibujando $B$ muestras de tamaño $n$ cada uno de la original $n$ observaciones con el reemplazo. Creo que este procedimiento es equivalente a la estimación de la función de distribución acumulativa por el cdf empírica:

http://en.wikipedia.org/wiki/Empirical_distribution_function

y a continuación, obtener el bootstrap de las muestras mediante la simulación de $n$ observaciones a partir de la estimación de la cdf $B$ veces en una fila.

Si me equivoco en esto, entonces uno tiene que solucionar el problema de sobreajuste, porque el cdf empírica tiene acerca de N parámetros. Por supuesto, converge asintóticamente a la población cdf, pero lo que sobre muestras finitas? E. g. si yo les dijera a ustedes que tengo 100 observaciones y voy a la estimación de la cdf como $N(\mu, \sigma^2)$ con dos parámetros, no se alarme. Sin embargo, si el número de parámetros que se tuvieron que ir hasta el 100, no parece razonable.

Del mismo modo, cuando se emplea un estándar de la regresión lineal múltiple, la distribución del término de error se calcula como:$N(0, \sigma^2)$. Si uno se decide a cambiar a arranque de los residuos, tiene que darse cuenta de que ahora hay alrededor de $n$ parámetros utilizados solamente para manejar el término de error de la distribución.

Podría usted por favor me dirija a algunas fuentes que abordan esta cuestión de forma explícita, o dime por qué no es un problema si creo que lo tengo mal.

4voto

Horst Grünbusch Puntos 2742

Janssen y Pauls mostró que el arranque de una estadística obras asintóticamente, iff un teorema del límite central también podría haber sido aplicado. Así que si se compara la estimación de los parámetros de una $\mathcal{N}(\mu,\sigma^2)$ distribución como la distribución de la estadística y la estimación de la estadística de la distribución a través de bootstrap golpea el punto.

Intuitivamente, el arranque de muestras finitas subestima pesadas colas de la distribución subyacente. Eso está claro, dado muestras finitas tienen una gama limitada, aunque su verdadera distribución de la gama es infinita o, peor aún, ha pesadas colas. Así que el bootstrap estadística del comportamiento nunca va a ser tan "salvaje" como el original de la estadística. De manera similar, para evitar el sobreajuste debido a demasiados parámetros en (paramétrica) de regresión, se podría evitar el sobreajuste mediante el par de parámetros de la distribución normal.

Edición de responder los comentarios: Recuerde que usted no necesita el bootstrap para estimar el cdf. Se suele utilizar el bootstrap para obtener la distribución (en el sentido más amplio, incluyendo cuantiles, momentos, en lo que fuera necesario) de algunos de estadística. Así que usted no necesariamente tiene un problema de sobreajuste (en términos de "la estimación debido a mi finito de datos se ve muy bonito en comparación a lo que debo ver con el verdadero salvaje de distribución"). Pero como resultó (por el citado papel y por Frank Harrel comentario de abajo), recibiendo a un sobreajuste problema está vinculado a problemas con paramétrico de estimación de datos estadísticos de las mismas.

Así como su pregunta implícita, el arranque no es una panacea contra los problemas con paramétrico de estimación. La esperanza de que el bootstrap ayudaría con el parámetro de problemas mediante el control de la distribución total es espuria.

3voto

optimus Puntos 140

no estoy completamente seguro de haber entendido tu pregunta... estoy asumiendo que usted está interesado en la orden de convergencia?

debido a que el cdf empírica tiene acerca de N parámetros. Por supuesto, converge asintóticamente a la población cdf, pero lo que sobre muestras finitas?

Has leído alguno de los conceptos básicos sobre la teoría bootstrap? El Problema es que se pone muy salvaje (matemáticamente) con bastante rapidez.

De todos modos, te recomiendo echar un vistazo a

van der Vaart "Asintótico de las Estadísticas", capítulo 23.

Hall "Bootstrap y Edgeworth expansiones" (larga pero concisa y menos handwaving de van der Vaart, yo diría)

por los fundamentos.

Chernick "Bootstrap Métodos" está más dirigida a los usuarios en lugar de los matemáticos, pero tiene una sección sobre "donde bootstrap falla".

La clásica Efron/Tibshirani tiene poco sobre el por qué de bootstrap realmente funciona...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X