Dos formas de utilizar el bootstrap para estimar el intervalo de confianza de los coeficientes en la regresión

Question

Dos formas de utilizar el bootstrap para estimar el intervalo de confianza de los coeficientes en la regresión

Preguntado el 19 de Julio, 2013: Cuando se hizo la pregunta
17910 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy aplicando un modelo lineal a mis datos: $y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}).$

Me gustaría estimar el intervalo de confianza (IC) de los coeficientes ( $\beta_{0}$ , $\beta_{1}$ ) utilizando el método bootstrap. Puedo aplicar el método bootstrap de dos maneras:

Muestra emparejada respuesta-predictor: Remuestrear aleatoriamente pares de $y_{i}-x_{i}$ y aplicar la regresión lineal a cada ejecución. Después de $m$ obtenemos una colección de coeficientes estimados ${\hat{\beta_{j}}}, j=1,...m$ . Por último, calcule el cuantil de ${\hat{\beta_{j}}}$ .
Error de muestra: Primero aplicamos una regresión lineal sobre los datos originales observados, a partir de este modelo obtenemos $\hat{\beta_{o}}$ y el error $\epsilon_{i}$ . Después, remuestrear aleatoriamente el error $\epsilon^{*}_{i}$ y calcular los nuevos datos con $\hat{\beta_{o}}$ y $y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}$ . Aplique de nuevo la regresión lineal. Después de $m$ obtenemos una colección de coeficientes estimados ${\hat{\beta_{j}}}, j=1,...,m$ . Por último, calcule el cuantil de ${\hat{\beta_{j}}}$ .

Mis preguntas son:

¿En qué se diferencian estos dos métodos?
¿En qué supuesto dan el mismo resultado estos dos métodos?

Preguntado el 19 de Julio, 2013 por Alexander Konstantinov

Answer 1

1 Respuestas

Answer 2

10voto

Guy Puntos 2102

Si los pares respuesta-predictor se han obtenido de una población mediante muestreo aleatorio, es seguro utilizar el esquema de remuestreo caso/aleatorio-x/su-primero. Si se controlaron los predictores, o los valores de los predictores fueron fijados por el experimentador, puede considerar utilizar el esquema de remuestreo residual/basado en el modelo/fijo-x/su-segundo remuestreo.

¿En qué se diferencian? Introducción al bootstrap con aplicaciones en R de Davison y Kounen contiene una discusión pertinente a esta cuestión (véase p.9). Véase también el código R en este apéndice de John Fox en particular las funciones boot.huber en la página 5 para el esquema de x aleatoria y boot.huber.fixed en la página 10 para el esquema de x fija. Mientras que en el Notas de clase de Shalizi los dos esquemas se aplican a diferentes conjuntos de datos/problemas, el apéndice de Fox ilustra la poca diferencia que ambos esquemas pueden suponer a menudo.

¿Cuándo cabe esperar que ambos ofrezcan resultados casi idénticos? Una situación es cuando el modelo de regresión está correctamente especificado, por ejemplo, no hay no linealidad no modelada y se cumplen los supuestos habituales de regresión (por ejemplo, errores iid, sin valores atípicos). Véase capítulo 21 del libro de Fox (al que pertenece indirectamente el citado apéndice con el código R), en particular la discusión de la página 598 y el ejercicio 21.3. titulado "Random versus ﬁxed resampling in regression". Citando el libro

By randomly reattaching resampled residuals to ﬁtted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reﬂected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

También aprenderá de esa discusión por qué el bootstrap de x fija supone implícitamente que la forma funcional del modelo es correcta (aunque no se hace ninguna suposición sobre la forma de la distribución del error).

Ver también diapositiva 12 de esta charla para la Sociedad de Actuarios de Irlanda por Derek Bain. También contiene una ilustración de lo que debe considerarse "el mismo resultado":

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.

Respondido el 4 de Enero, 2014 por Guy (2102 Puntos )

Dos formas de utilizar el bootstrap para estimar el intervalo de confianza de los coeficientes en la regresión

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Dos formas de utilizar el bootstrap para estimar el intervalo de confianza de los coeficientes en la regresión

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: