6 votos

Intervalos de confianza Bootstrap: ¿cuántas réplicas elegir?

He aplicado un proceso de bootstrap para calcular los intervalos de confianza de los parámetros de una regresión lineal múltiple.

En R es bastante sencillo de implementar (funciones: 'boot' y 'boot.ci') pero sigo teniendo dos problemas de comprensión:

  1. ¿Por qué tiene sentido realizar un procedimiento bootstrap antes de calcular los intervalos de confianza? ¿Serán más precisos? Y si es así, ¿alguien puede explicar por qué?
  2. ¿Cómo puedo decidir qué número de réplicas es un buen número para calcular los intervalos de confianza? 100? 1000? 10000?

Agradecería mucho cualquier ayuda.

1 votos

Sin embargo, si utiliza una aproximación normal en sus estimaciones bootstrap, puede hacer muchas menos réplicas bootstrap (por ejemplo, 100) que si utiliza el método de los percentiles (en cuyo caso se recomienda más de 10.000).

4voto

cbeleites Puntos 12461

¿Por qué tiene sentido realizar un procedimiento bootstrap antes de calcular los intervalos de confianza? ¿Serán más precisos? Y si es así, ¿alguien puede explicar por qué?

Puede calcular intervalos de confianza bootstrap para situaciones complejas, es decir, propiedades ("estadísticas") que no son fácilmente accesibles de forma analítica. Estoy pensando en cosas como el error de generalización bootstrap de un modelo predictivo*.

En otras palabras, el bootstrapping todavía puede ser posible en situaciones en las que no se tiene una buena suposición de en qué distribución basar los intervalos de confianza.

La elección paramétrica (intervalo de confianza analítico basado en una distribución conocida) frente al bootstrap no paramétrico es un compromiso:

  • una buena estadística paramétrica será más precisa. Pero pueden ser totalmente erróneas si se violan los supuestos (es decir, la distribución que elegiste no era la adecuada).
  • El bootstrap es menos preciso (para un número determinado de casos originales), pero no se basa en supuestos de distribución particulares, por lo que hay menos peligro de equivocarse en esa parte*.

¿Cómo puedo decidir qué número de réplicas es un buen número para calcular los intervalos de confianza? 100? 1000? 10000?

@MartenBuuis ya te dio alguna idea de cómo enfocar esta cuestión. Aquí hay otra, muy pragmática:

  1. Bootstrap, por ejemplo, con nboot = 100 réplicas.
  2. repita esto 10 veces
  3. comprobar la variabilidad de los resultados del bootstrap.
  4. si la variación que observa en las repeticiones del cálculo de bootstrapping es aceptable para su aplicación, fusione los cálculos 10x100 y utilice el resultado de ese nboot = 10x100 = 1000 réplicas.
    Si no son lo suficientemente precisos, fusiona los cálculos 10x100, vuelve al paso 1 y 2 con nboot = 1000 réplicas.

Ya te haces una idea.

0 votos

Sin embargo, si utiliza una aproximación normal en sus estimaciones bootstrap, puede hacer muchas menos réplicas bootstrap (por ejemplo, 100) que si utiliza el método de los percentiles (en cuyo caso se recomienda más de 10.000).

1voto

RGA Puntos 113

Tomemos el caso más sencillo de utilizar sólo los percentiles para calcular el intervalo de confianza. En ese caso, se muestrea repetidamente con reemplazo de los datos, se calcula el estadístico en cada una de esas muestras y se almacenan esas estimaciones. El percentil 2,5 de esas estimaciones almacenadas representa el límite inferior y el percentil 97,5 el límite superior de un intervalo de confianza del 95%.

Si tiene 200 réplicas, el límite inferior se basará en la quinta estimación más pequeña y el más alto en la quinta más alta. Eso será demasiado pequeño para mi gusto. Mi valor por defecto es de 20.000 réplicas, por lo que el límite inferior se basaría en la 500ª estimación más pequeña y el límite superior en la 500ª estimación más grande. El valor por defecto no es más que un punto de partida, y a menudo elegiré otro número dependiendo de las circunstancias exactas.

0 votos

Gracias por su respuesta. Pero, ¿cuál es la ventaja del remuestreo? ¿Por qué no puedo tomar simplemente el percentil 2,5 y el 97,5 de mis datos originales? Entonces, a la hora de decidir qué número de réplicas es adecuado, ¿recomiendas seleccionar el mayor valor posible (si se ignoran los problemas de rendimiento)?

0 votos

@MarcelGrimmer: puedes hacer bootstrap del intervalo de confianza para una estadística de tus datos (digamos, la media, la mediana, la varianza, o algún número que sea mucho más complicado de calcular, por ejemplo, el error de predicción generalizado de un modelo ajustado a tus datos). Sólo puede informar de los percentiles de sus datos. También tenga en cuenta que decir que el percentil 2,5 de x está en este intervalo de confianza no es lo mismo que decir que el percentil 2,5 de nuestras observaciones de x es...

0 votos

@cbeleites Así es, me equivoqué. Gracias.

1voto

AlainD Puntos 126

Según Efron (el "inventor" de la técnica boostrap), deberías hacer 1600 réplicas. No tengo ninguna otra pista sobre la procedencia de este número, salvo que su raíz cuadrada es 40, un número fácil de dividir. Te sugiero que vayas como en cualquier otro Monte-Carlo. Prueba con 1600, y luego aumenta las muestras de bootstrap hasta que se estabilice.

El bootstrap se introdujo para calcular los intervalos de confianza en caso de que la distribución del v.a.r sea desconocida o no sea técnicamente computable, debido a los valores atípicos o a la asimetría. El bootstrap sustituye los cálculos teóricos del intervalo de confianza por una medida de muestras simuladas. Por tanto, los intervalos de confianza deberían ser los mismos.

Sin embargo, hay que tener en cuenta que no todos los indicadores estadísticos son iguales frente al boostrap. Un promedio (o una media) requerirá menos muestras que un máximo, o un percentil del 1%, por ejemplo.

0 votos

Creo que tienes una errata: no es Elon, sino Bradley Efron el inventor del bootstrap o al menos es el que popularizó el bootstraping.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X