3 votos

¿Bootstrap paramétrico sin reajuste del modelo?

Tengo un modelo de poisson GLM que hace predicciones de la probabilidad de muerte para cada observación en mi conjunto de datos después de ajustar el modelo. A continuación, tomo la suma o la media de estas probabilidades para obtener una probabilidad global de muerte o el número esperado de muertes. Ahora, me gustaría obtener intervalos de confianza para la media/suma de estas probabilidades individuales predichas. Inicialmente había pensado en hacer simplemente un bootstrap no paramétrico para obtener estos intervalos de confianza, pero después de hablar con una universidad mía, me aconsejó que realizara un bootstrap paramétrico, lo que implicaba utilizar la matriz de covarianza del $\hat{\beta}$ de alguna manera. Cuando me explicó el método, me advirtió de que para utilizarlo no era necesario reajustar el modelo, lo cual es importante para mí, ya que el modelo tarda unos 5 minutos en ejecutarse (y no quiero reajustarlo para 10.000 tiras de arranque, ya que esto llevará demasiado tiempo).

Todo lo que he leído sobre bootstrap paramétrico con modelos de regresión, requiere que simplemente genere muestras sintéticas de bootstrap utilizando los residuos de bootstrap y los valores predichos originales para realizar otra regresión. Pero lo que estoy tratando de determinar es si hay alguna manera de bootstrap intervalos de confianza sin tener que volver a ajustar los modelos como mi colega (que no está disponible) puede haber sugerido?

Gracias de antemano por las sugerencias y/o referencias que puedan aportar.

2voto

Ben Bolker Puntos 8729

Si está dispuesto a suponer que la distribución muestral de los coeficientes es normal multivariante, puede obtener una distribución muestral de las predicciones (y, por ejemplo, los cuantiles de esta distribución) mediante el muestreo $\beta^* \sim \textrm{MVN}(\hat \beta, \Sigma)$ y luego calcular los valores predichos sobre la base de cada $\beta^*_i$ valor. Supongo que puedo entender por qué este puede se denomina bootstrap paramétrico, pero hace suposiciones mucho más fuertes que el PB habitual.

Si usted estuviera haciendo esto en R con cualquier enfoque de ajuste que proporciona coef() (o fixef() para el nlme / lme4 familia) y vcov() que podrías hacer:

betastar <- MASS::mvrnorm(1000,coef(fit),vcov(fit))
pred <- apply(betastar,1,predfun)

En la sección 7.5.3 de Modelos y datos ecológicos en R (Princeton University Press, 2008: un antiguo borrador está en línea aquí ) Yo los llamo intervalos de predicción de la población , después de Lande y otros. 2003.

0 votos

¡Gracias, @Ben Bolker! Se agradece mucho. Tengo tu libro aquí en mi estantería, así que echaré un vistazo a la sección 7.5.3. ¿Puedes hablar de las ventajas/desventajas de este enfoque en comparación con el remuestreo bootstrap tradicional de casos? Mi colega mencionó que este enfoque sería más apropiado para predecir los futuros intervalos de predicción de la población que el remuestreo tradicional de casos por bootstrap. Creo que mencionó que el bootstrap tradicional sólo sería aplicable a mi población actual, mientras que este método era más adecuado para las predicciones futuras. ¿Puede comentarlo?

0 votos

También me preguntaba si los intervalos así calculados serían intervalos de confianza o de predicción. Es decir, ¿serían intervalos de confianza, es decir, intervalos sobre la media predicha del modelo, o serían intervalos de predicción, y darían una estimación de un intervalo en el que caerán las futuras observaciones, teniendo en cuenta el ruido esperado en las mediciones individuales? ¿Sería posible adaptar el método para calcular ambos para, por ejemplo, GLMs con distribuciones arbitrarias?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X