31 votos

Gráficos de residuos: ¿por qué parcela frente a los valores ajustados, no se observó $Y$ valores?

En el contexto de la regresión por MCO entiendo que un residual de la parcela (vs valores ajustados) que convencionalmente se ve para la prueba de varianza constante y evaluar la especificación del modelo. ¿Por qué son los residuos que se trazan contra los ataques, y no el $Y$ valores? ¿Cómo es la información de manera diferente de estas dos parcelas?

Estoy trabajando en un modelo que produjo los siguientes gráficos de residuos:

enter image description here

enter image description here

Por lo que la parcela de frente a los valores ajustados se ve bien a simple vista, pero el segundo argumento contra la $Y$ valor tiene un patrón. Me pregunto por qué un pronunciado patrón no también de manifiesto en los residuales vs ajuste de la parcela....

Yo no estoy buscando ayuda en el diagnóstico de problemas con el modelo, sino simplemente tratando de entender las diferencias (en general) entre (1) residual vs ajuste de la parcela y (2) residual vs $Y$ de la parcela.

Para lo que vale, estoy seguro de que el patrón de error en el segundo gráfico es debido a la variable omitida(s) que influyen en la DV. Actualmente estoy trabajando en la obtención de los datos, que espero que los ayudará a que el ajuste global y la especificación. Estoy trabajando con datos de inmuebles: DV=Precio de Venta. IVs: Sq.pie de casa, # plazas de garaje, año de construcción, año de construcción$^2$.

28voto

AdamSane Puntos 1825

Dos hechos que supongo que eres feliz conmigo sólo indicando:

yo. $y_i = \hat{y}_i+\hat{e}_i$

ii. $\text{Cov}(\hat{y}_i,\hat{e}_i)=0$

Entonces:

$\text{Cov}(y_i,\hat{e}_i)=\text{Cov}(\hat{y}_i+\hat{e}_i,\hat{e}_i)$

$\qquad=\text{Cov}(\hat{y}_i,\hat{e}_i) +\text{Cov}(\hat{e}_i,\hat{e}_i)$

$\qquad=0 +\sigma^2_e$

$\qquad=\sigma^2_e$

Así, mientras que el amueblada valor no se correlaciona con el residual, la observación es.

En efecto, esto es debido a que tanto la observación y el resto están relacionados con el término de error.

Esto generalmente hace que sea un poco más difícil de usar los residuos de la parcela para fines de diagnóstico.

13voto

Michael Puntos 162

Por construcción el término de error en un modelo OLS no tiene correlación con los valores observados de X covariables. Esto siempre será cierto para los datos observados incluso si el modelo está produciendo estimaciones sesgadas que no reflejan el verdadero valor de un parámetro debido a la suposición de que el modelo es violado (como una variable omitida problema o un problema de causalidad inversa). Los valores pronosticados son totalmente una función de estas variables de control para que ellos también están correlacionadas con el término de error. Por lo tanto, cuando se hace una gráfica de los residuales contra los valores predichos se debe mirar siempre al azar, porque de hecho están correlacionadas por la construcción del estimador. En contraste, es muy posible (y de hecho probable) para un modelo del término de error relacionado con Y en la práctica. Por ejemplo, con un dicotómica de la variable X más que la verdad Y es desde E(Y | X = 1) o E(Y | X = 0) , a continuación, el más grande es el residuo de ser. Aquí es la misma intuición con datos simulados en R, donde sabemos que el modelo es imparcial porque tenemos el control de la generadora de datos de proceso:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Obtenemos el mismo resultado de la correlación cero con una visión sesgada modelo, por ejemplo, si omitimos x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X