9 votos

Selección adaptativa del número de réplicas bootstrap

Como en la mayoría de los métodos de Monte Carlo, la regla para el bootstrapping es que cuanto mayor sea el número de réplicas, menor será el error de Monte Carlo. Pero hay rendimientos decrecientes, por lo que no tiene sentido realizar tantas réplicas como sea posible.

Supongamos que quiere asegurarse de que su estimación $\hat $ de una determinada cantidad $$ is within $$ de la estimación $\tilde $ que se obtendría con un número infinito de réplicas. Por ejemplo, puede querer estar razonablemente seguro de que los dos primeros decimales de $\hat $ no son erróneas debido al error de Monte Carlo, en cuyo caso $ = .005$ . ¿Existe un procedimiento adaptativo en el que se generen continuamente réplicas bootstrap, comprobando $\hat $ y parando según una regla tal que, digamos, $|\hat - \tilde | < $ ¿con un 95% de confianza?

N.B. Aunque las respuestas existentes son útiles, todavía me gustaría ver un esquema para controlar la probabilidad de que $|\hat - \tilde | < $ .

0 votos

Me opongo a llamar al bootstrap un método de Monte Carlo. No lo es, aunque a menudo los métodos de Monte Carlo son necesarios para obtener buenas aproximaciones a las estimaciones del bootstrap porque la enumeración es inviable.

0 votos

No estoy seguro de lo que está preguntando exactamente. Pero a menudo es difícil saber de antemano cuántas réplicas bootstrap se necesitan para que la aproximación de Monte Carlo a la estimación bootstrap se acerque a la estimación bootstrap real. He sugerido hacer algo como lo que usted sugiere. Eso sería añadir réplicas hasta que el cambio en la estimación sea pequeño. Esto sería una indicación de convergencia.

0 votos

@MichaelChernick "No estoy seguro de lo que pregunta exactamente". - Qué puedo hacer para ayudar a aclararlo?

3voto

fabiob Puntos 146

Si la estimación de $\theta$ en las réplicas se distribuyen normalmente supongo que se puede estimar el error $\hat{\sigma}$ en $\hat{\theta}$ de la desviación estándar $\sigma$ :

$$ \hat{\sigma} = \frac{\sigma}{\sqrt{n}} $$

entonces puedes parar cuando $1.96*\hat{\sigma} < \epsilon$ .

¿O he entendido mal la pregunta? ¿O quiere una respuesta sin asumir la normalidad y en presencia de autocorrelaciones significativas?

0 votos

Estaría bien no tener que asumir la normalidad, pero sin duda podemos asumir que las réplicas del bootstrap se seleccionan de forma independiente, si ese es el tipo de dependencia al que te refieres con autocorrelación.

0 votos

Sin embargo, si no asumimos la normalidad, ni siquiera podemos estar seguros de que la media sea una buena estimación de theta. Creo que necesitamos más hipótesis para proponer una solución...

0 votos

Para que quede claro, ¿qué cosa, exactamente, estás asumiendo como normal? El texto de tu respuesta dice que "las réplicas se distribuyen normalmente", pero cada réplica es una muestra del mismo tamaño que la muestra original. No sé qué significaría que una colección de muestras se distribuyera normalmente.

2voto

mat_geek Puntos 1367

En las páginas 113-114 de la primera edición de mi libro Bootstrap Methods: A Practitioner's Guide Wiley (1999) hablo de los métodos para determinar cuántas réplicas de bootstrap hay que hacer cuando se utiliza la aproximación de Monte Carlo.

Entro en detalle sobre un procedimiento debido a Hall que fue descrito en su libro The Bootstrap and Edgeworth Expansion, Springer-Verlag (1992). Demuestra que cuando el tamaño de la muestra n es grande y el número de réplicas del bootstrap B es grande, la varianza de la estimación del bootstrap es C/B, donde C es una constante desconocida que no depende de n ni de B. Así que si se puede determinar C o acotarla por encima, se puede determinar un valor para B que haga que el error de la estimación sea menor que el $\epsilon$ que usted especifica en su pregunta.

Describo una situación en la que C = 1/4. Pero si no tienes una buena idea de cuál es el valor de C, puedes recurrir al enfoque que describes, en el que tomas B=500, por ejemplo, y luego lo duplicas a 1000 y comparas la diferencia en esas estimaciones bootstrap.

Otra idea la da Efron en el artículo "Better bootstrap confidence intervals (with discussion)", (1987) Journal of the American Statistical Association Vol. 82 pp 171-200.

0 votos

Ah, con "dos estimaciones sucesivas" pensé que te referías a algo como la estimación de $$ from replicate 1,002 versus the estimate of $$ de la réplica 1.003. Comparar la estimación de todas las primeras 500 réplicas con la de las segundas 500 o la de las primeras 1.000 es más intuitivo.

0 votos

Ya he visto Efron (1987), pero ¿qué parte aborda la cuestión de la elección del número de réplicas bootstrap?

0 votos

En mi libro menciono que en Efron (1967) y Booth y Sarkar (1998) señalan que después de un determinado número (grande) de iteraciones el error en la estimación bootstrap está dominado por el error debido al uso de la distribución empírica (como una aproximación a la distribución de la población) hacen que el error en la aproximación de Monte Carlo sea pequeño. No he citado la página o páginas concretas donde se discute esto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X