7 votos

¿Cómo puede heterocedasticidad que es sólo contingente de variables omitidas no afectará a la validez de los errores estándar?

En el libro de texto la estoy usando (Introductorio de la Econometría: Un Enfoque Moderno por Jeffrey M. Wooldridge), hay una descripción que va,

Por explícita de la homoskedasticity asunción como condicional en las variables explicativas que aparecen en la media condicional, es evidente que sólo heterocedasticidad que depende de las variables explicativas en el modelo afecta a la validez de los errores estándar y de la estadística de prueba.

Yo no entiendo realmente lo que se quiere decir aquí, sobre todo el motivo por el que "está claro". Podría alguien elaborar sobre esto?

5voto

Sean Hanley Puntos 2428

No tengo acceso al libro, pero creo que debe haber una limitación adicional. La variable omitida[s] debe ser correlacionados con las variables explicativas que aparecen en el modelo. Si la variable omitida, en la que la varianza condicional depende, se correlaciona con el que se incluyen variables, entonces la varianza residual varía con el modelo de variables y la homoscedasticity asunción será violado. Por otro lado, si la variable omitida es no, entonces el residual / la varianza de error será el mismo a lo largo del rango de las variables del modelo. Por lo tanto, la homoscedasticity asunción obtiene, en efecto, para ese modelo.

A veces ayuda a ver un ejemplo o probar un poco de la simulación. Aquí está una trabajé en R:

set.seed(9018)                  # this makes the example exactly reproducible
x  = runif(500, min=0, max=10)  # x is a uniformly distributed continuous variable
g  = rep(c(0,1), each=250)      # g is a grouping variable, which will be omitted
y1 = 5 + .3*x  + g + c(rnorm(250, mean=0, sd=1),   # residual SD=1 when g=0
                       rnorm(250, mean=0, sd=2) )  # residual SD=2 when g=1
xs = sort(x)                    # by sorting x, I make it correlated w/ g
y2 = 5 + .3*xs + g + c(rnorm(250, mean=0, sd=1), 
                       rnorm(250, mean=0, sd=2) )

uncor.m = lm(y1~x)   # this is the model w/ g omitted, but uncorrelated w/ x
cor.m   = lm(y2~xs)  # in this case, g is correlated w/ xs

library(lmtest)      # we use this package to run the Breusch-Pagan tests
bptest(uncor.m)
#  studentized Breusch-Pagan test
# 
# data:  uncor.m
# BP = 0.1178, df = 1, p-value = 0.7314
bptest(cor.m)
#  studentized Breusch-Pagan test
# 
# data:  cor.m
# BP = 38.2682, df = 1, p-value = 6.166e-10

Aquí están los de la escala de ubicación de las parcelas de los modelos, se puede ver que la correlación versión es plana, mientras que la correlación versión tiene una mayor varianza residual de la derecha:

enter image description here

El residual de distribución para el modelo es la integral de los errores sobre las variables omitidas. En el caso más simple, usted podría tener una mezcla de dos normales con la misma media ($0$) pero con diferentes varianzas / SDs. Esto va a producir lo que es, en efecto, una sola distribución de un medio de varianza (al menos marginalmente). Esto es similar al caso de ilustrar más arriba (en la simulación, hay un efecto de la g sobre la media así como la varianza, por lo que la distribución va a ser algo bimodal). Normalmente, la distribución de error marginados sobre las variables omitidas no será muy normal en todo. La situación es análoga a la distribución marginal de $Y$, el cual se integra a través de la distribución condicional de $Y$ (los residuos) y la distribución de $X$. Para un ejemplo puede ayudar a leer mi respuesta a esta pregunta: ¿Qué pasa si los residuos están normalmente distribuidos, pero, Y no es? Tenga en cuenta que incluso si usted tiene homoscedasticity, la normalidad de los errores o residuos pueden afectar la validez de los errores estándar. Con suficientes datos, los residuos no tienen que ser perfectamente normal en el SEs para ser válido, pero esto requiere más datos de la más sus residuos son de la normalidad, y la necesaria $N$ puede ser mucho mayor de lo que la gente sospecha (ver @Macro de la respuesta aquí: Regresión cuando la OLS residuos no están normalmente distribuidos).

En general, si usted cree que esto es una posibilidad razonable, que sería mejor simplemente utilizando errores estándar que son robustos a estas cuestiones. La de Huber-White de heterocedasticidad coherente "sándwich" los errores son bastante conveniente, y son comúnmente utilizados por esta razón.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X