No tengo acceso al libro, pero creo que debe haber una limitación adicional. La variable omitida[s] debe ser correlacionados con las variables explicativas que aparecen en el modelo. Si la variable omitida, en la que la varianza condicional depende, se correlaciona con el que se incluyen variables, entonces la varianza residual varía con el modelo de variables y la homoscedasticity asunción será violado. Por otro lado, si la variable omitida es no, entonces el residual / la varianza de error será el mismo a lo largo del rango de las variables del modelo. Por lo tanto, la homoscedasticity asunción obtiene, en efecto, para ese modelo.
A veces ayuda a ver un ejemplo o probar un poco de la simulación. Aquí está una trabajé en R
:
set.seed(9018) # this makes the example exactly reproducible
x = runif(500, min=0, max=10) # x is a uniformly distributed continuous variable
g = rep(c(0,1), each=250) # g is a grouping variable, which will be omitted
y1 = 5 + .3*x + g + c(rnorm(250, mean=0, sd=1), # residual SD=1 when g=0
rnorm(250, mean=0, sd=2) ) # residual SD=2 when g=1
xs = sort(x) # by sorting x, I make it correlated w/ g
y2 = 5 + .3*xs + g + c(rnorm(250, mean=0, sd=1),
rnorm(250, mean=0, sd=2) )
uncor.m = lm(y1~x) # this is the model w/ g omitted, but uncorrelated w/ x
cor.m = lm(y2~xs) # in this case, g is correlated w/ xs
library(lmtest) # we use this package to run the Breusch-Pagan tests
bptest(uncor.m)
# studentized Breusch-Pagan test
#
# data: uncor.m
# BP = 0.1178, df = 1, p-value = 0.7314
bptest(cor.m)
# studentized Breusch-Pagan test
#
# data: cor.m
# BP = 38.2682, df = 1, p-value = 6.166e-10
Aquí están los de la escala de ubicación de las parcelas de los modelos, se puede ver que la correlación versión es plana, mientras que la correlación versión tiene una mayor varianza residual de la derecha:
El residual de distribución para el modelo es la integral de los errores sobre las variables omitidas. En el caso más simple, usted podría tener una mezcla de dos normales con la misma media ($0$) pero con diferentes varianzas / SDs. Esto va a producir lo que es, en efecto, una sola distribución de un medio de varianza (al menos marginalmente). Esto es similar al caso de ilustrar más arriba (en la simulación, hay un efecto de la g
sobre la media así como la varianza, por lo que la distribución va a ser algo bimodal). Normalmente, la distribución de error marginados sobre las variables omitidas no será muy normal en todo. La situación es análoga a la distribución marginal de $Y$, el cual se integra a través de la distribución condicional de $Y$ (los residuos) y la distribución de $X$. Para un ejemplo puede ayudar a leer mi respuesta a esta pregunta: ¿Qué pasa si los residuos están normalmente distribuidos, pero, Y no es? Tenga en cuenta que incluso si usted tiene homoscedasticity, la normalidad de los errores o residuos pueden afectar la validez de los errores estándar. Con suficientes datos, los residuos no tienen que ser perfectamente normal en el SEs para ser válido, pero esto requiere más datos de la más sus residuos son de la normalidad, y la necesaria $N$ puede ser mucho mayor de lo que la gente sospecha (ver @Macro de la respuesta aquí: Regresión cuando la OLS residuos no están normalmente distribuidos).
En general, si usted cree que esto es una posibilidad razonable, que sería mejor simplemente utilizando errores estándar que son robustos a estas cuestiones. La de Huber-White de heterocedasticidad coherente "sándwich" los errores son bastante conveniente, y son comúnmente utilizados por esta razón.