Gráficos de residuos: ¿por qué parcela frente a los valores ajustados, no se observó $Y$ valores?

Question

Gráficos de residuos: ¿por qué parcela frente a los valores ajustados, no se observó $Y$ valores?

Preguntado el 5 de Junio, 2015: Cuando se hizo la pregunta
802 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

En el contexto de la regresión por MCO entiendo que un residual de la parcela (vs valores ajustados) que convencionalmente se ve para la prueba de varianza constante y evaluar la especificación del modelo. ¿Por qué son los residuos que se trazan contra los ataques, y no el $Y$ valores? ¿Cómo es la información de manera diferente de estas dos parcelas?

Estoy trabajando en un modelo que produjo los siguientes gráficos de residuos:

enter image description here

Por lo que la parcela de frente a los valores ajustados se ve bien a simple vista, pero el segundo argumento contra la $Y$ valor tiene un patrón. Me pregunto por qué un pronunciado patrón no también de manifiesto en los residuales vs ajuste de la parcela....

Yo no estoy buscando ayuda en el diagnóstico de problemas con el modelo, sino simplemente tratando de entender las diferencias (en general) entre (1) residual vs ajuste de la parcela y (2) residual vs $Y$ de la parcela.

Para lo que vale, estoy seguro de que el patrón de error en el segundo gráfico es debido a la variable omitida(s) que influyen en la DV. Actualmente estoy trabajando en la obtención de los datos, que espero que los ayudará a que el ajuste global y la especificación. Estoy trabajando con datos de inmuebles: DV=Precio de Venta. IVs: Sq.pie de casa, # plazas de garaje, año de construcción, año de construcción$^2$.

Preguntado el 5 de Junio, 2015 por Mac

Answer 1

2 Respuestas

Answer 2

28voto

AdamSane Puntos 1825

Dos hechos que supongo que eres feliz conmigo sólo indicando:

yo. $y_i = \hat{y}_i+\hat{e}_i$

ii. $\text{Cov}(\hat{y}_i,\hat{e}_i)=0$

Entonces:

$\text{Cov}(y_i,\hat{e}_i)=\text{Cov}(\hat{y}_i+\hat{e}_i,\hat{e}_i)$

$\qquad=\text{Cov}(\hat{y}_i,\hat{e}_i) +\text{Cov}(\hat{e}_i,\hat{e}_i)$

$\qquad=0 +\sigma^2_e$

$\qquad=\sigma^2_e$

Así, mientras que el amueblada valor no se correlaciona con el residual, la observación es.

En efecto, esto es debido a que tanto la observación y el resto están relacionados con el término de error.

Esto generalmente hace que sea un poco más difícil de usar los residuos de la parcela para fines de diagnóstico.

Respondido el 5 de Junio, 2015 por AdamSane (1825 Puntos )

Answer 3

13voto

Michael Puntos 162

Por construcción el término de error en un modelo OLS no tiene correlación con los valores observados de X covariables. Esto siempre será cierto para los datos observados incluso si el modelo está produciendo estimaciones sesgadas que no reflejan el verdadero valor de un parámetro debido a la suposición de que el modelo es violado (como una variable omitida problema o un problema de causalidad inversa). Los valores pronosticados son totalmente una función de estas variables de control para que ellos también están correlacionadas con el término de error. Por lo tanto, cuando se hace una gráfica de los residuales contra los valores predichos se debe mirar siempre al azar, porque de hecho están correlacionadas por la construcción del estimador. En contraste, es muy posible (y de hecho probable) para un modelo del término de error relacionado con Y en la práctica. Por ejemplo, con un dicotómica de la variable X más que la verdad Y es desde E(Y | X = 1) o E(Y | X = 0) , a continuación, el más grande es el residuo de ser. Aquí es la misma intuición con datos simulados en R, donde sabemos que el modelo es imparcial porque tenemos el control de la generadora de datos de proceso:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Obtenemos el mismo resultado de la correlación cero con una visión sesgada modelo, por ejemplo, si omitimos x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

Respondido el 5 de Junio, 2015 por Michael (162 Puntos )

Gráficos de residuos: ¿por qué parcela frente a los valores ajustados, no se observó $Y$ valores?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Gráficos de residuos: ¿por qué parcela frente a los valores ajustados, no se observó $Y$ valores?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: