11 votos

¿Tiene sentido estudiar los gráficos de los residuos con respecto a la variable dependiente?

Me gustaría saber si tiene sentido estudiar los gráficos de los residuos con respecto a la variable dependiente cuando tengo una regresión univariante. Si tiene sentido, ¿qué significa una correlación fuerte, lineal y creciente entre los residuos (en el eje y) y los valores estimados de la variable dependiente (en el eje x)?

enter image description here

3 votos

No estoy seguro de lo que quiere decir con "correlación fuerte, lineal y creciente". ¿Puede mostrar el gráfico? Es perfectamente razonable trazar los residuos contra los valores ajustados. En general, usted quiere que no haya ninguna relación - una línea horizontal plana que pasa por el centro. Además, quiere que la dispersión vertical de los residuos sea constante desde el lado izquierdo del gráfico hacia la derecha.

0 votos

Hola. Gracias por su respuesta. Esta es la trama: img100.imageshack.us/img100/7414/bwages.png

0 votos

Eso es desconcertante. Déjame asegurarme de que lo entiendo: Usted corrió un modelo de regresión, a continuación, trazó los residuos frente a los valores ajustados, y eso es lo que tienes, ¿es eso cierto? No debería ser así. ¿Puede editar su pregunta y pegar el código que utilizó para el modelo y el gráfico?

13voto

simmosn Puntos 304

Suponga que tiene la regresión $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ , donde $\beta_1 \approx 0$ . Entonces, $y_i - \beta_0 \approx \epsilon_i$ . Cuanto más alto sea el $y$ el valor, mayor será el residuo. Por el contrario, un gráfico de los residuos contra $x$ no debería mostrar ninguna relación sistemática. Además, el valor previsto $\hat{y}_i$ debe ser aproximadamente $\hat{\beta}_0$ ---lo mismo para cada observación. Si todos los valores predichos son aproximadamente iguales, no deberían estar correlacionados con los errores.

Lo que la trama me dice es que $x$ y $y$ son esencialmente no relacionados (por supuesto, hay mejores maneras de mostrar esto). Háganos saber si su coeficiente $\hat{\beta}_1$ no se acerca a 0.

Como mejor diagnóstico, utilice un gráfico de los residuos contra el Previsto salario o contra el $x$ valor. No debería observar un patrón distinguible en estos gráficos.

Si quieres una pequeña demostración de R, aquí tienes:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

0 votos

Esto no significa que sólo por $\beta_1=0$ En este caso, es posible que el modelo necesite más variables explicativas, como los términos polinómicos.

5voto

ParoX Puntos 773

Suponiendo que el modelo estimado esté correctamente especificado...

Denotemos $P_X=X(X'X)^{-1}X'$ la matriz $P_X$ es una matriz de proyección, por lo que $P_X^2=P_X$ y $P_X'=P_X$ .

$Cov(\hat{Y},\hat{e})=Cov(P_XY,(I-P_X)Y)=P_XCov(Y,Y)(I-P_X)'=\sigma^2P_X(I-P_X)=0$ .

Por tanto, el gráfico de dispersión de los residuos frente a la variable dependiente predicha no debería mostrar ninguna correlación.

¡Pero!

$Cov(Y,\hat{e})=Cov(Y,(I-P_X)Y)=Cov(Y,Y)(I-P_X)'=\sigma^2(I-P_X)$ .

La matriz $\sigma^2(I-P_X)$ es una matriz de proyección, sus valores propios son 0 o +1, es semidefinida positiva. Así que debe tener valores no negativos en la diagonal. Así que el gráfico de dispersión de los residuos frente a la variable dependiente original debería mostrar una correlación positiva.

Por lo que sé, Gretl produce por defecto el gráfico de los residuos contra la variable dependiente original (¡no la predicha!).

0 votos

Aprecio la posibilidad diferente. Aquí es donde un poco de conocimiento de Gretl es útil. Sin embargo, me pregunto hasta qué punto es plausible que esta sea la respuesta real. Usando mis datos simulados, correlacioné y grafiqué los residuos contra el dv original; r=.22 y el gráfico se parece mucho a mi tercer gráfico, no al de la pregunta. Por supuesto, elaboré esos datos para comprobar la plausibilidad de mi historia; puede que no sean apropiados para comprobar la tuya.

0 votos

@gung ¿Qué quieres decir con que has utilizado tus datos simulados?

0 votos

@MichaelBishop si usted mira mi respuesta, se ve que he simulado los datos para probar mi historia para ver si se vería como el gráfico publicado. Mi código y las parcelas se presentan. Desde que especifiqué la semilla, es reproducible por cualquier persona con acceso a R.

4voto

georg Puntos 1742

¿Es posible que estés confundiendo los valores ajustados/previstos con los valores reales?

Como han dicho @gung y @biostat, espera que no haya relación entre los valores ajustados y los residuales. Por otro lado, encontrar una relación lineal entre los valores reales de la variable dependiente/resultado y los residuos es de esperar y no es especialmente informativo.

Añadido para aclarar la frase anterior: No cabe esperar cualquier relación lineal entre los residuos y los valores reales del resultado... Para valores medidos bajos de Y, los valores predichos de Y a partir de un modelo útil tenderán a ser mayores que los valores medidos reales, y viceversa.

0 votos

La implicación de lo que estás diciendo es que, si los valores son consistentemente subestimados en valores bajos de Y, y consistentemente sobreestimados en valores altos de Y, eso está bien. Eso es un problema, ¿verdad?

0 votos

@rolando2, no he insinuado lo que tú dices que he insinuado aunque quizás debería aclarar mi respuesta. Como has dicho, subpredecir sistemáticamente en valores bajos de Y y sobrepredecir en valores altos de Y sería un signo de un modelo muy malo. Yo me imaginaba lo contrario, sobreprediciendo en valores bajos de Y y subprediciendo en valores altos de Y. Este fenómeno es común, y es de esperar más o menos en proporción a la cantidad de varianza de la variable dependiente que se puede explicar. Imagina que no tienes ninguna variable que prediga Y, así que siempre utilizas la media como predicción

1 votos

Lo que has dicho tiene sentido para mí, excepto por una cosa. Me cuesta imaginar que una tendencia tan fuerte como la que ha mostrado Luigi aparezca en una solución sólida o deseable, incluso si la tendencia fuera de la parte superior izquierda a la inferior derecha.

3voto

Sean Hanley Puntos 2428

Las respuestas ofrecidas me están dando algunas ideas sobre lo que está pasando aquí. Creo que puede haber algunos errores cometidos por accidente. A ver si la siguiente historia tiene sentido: Para empezar, creo que probablemente hay una fuerte relación entre X e Y en los datos (aquí hay un código y un gráfico):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

enter image description here

Pero por error se predijo Y sólo a partir de la media. Además, los residuos del modelo de la media se representan frente a X, aunque lo que se pretendía era representar los valores ajustados (código y gráfico):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

enter image description here

Podemos solucionarlo ajustando el modelo apropiado y trazando los residuos de éste (código y gráfico):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

enter image description here

Esto parece el tipo de pifias que cometí cuando estaba empezando.

0voto

User Puntos 171

Este gráfico indica que el modelo que has ajustado no es bueno. Como dijo @gung en los primeros comentarios de la pregunta principal, no debería haber ninguna relación entre la respuesta predicha y el residuo.

"un analista debe esperar que un modelo de regresión se equivoque al predecir una respuesta de forma aleatoria; el modelo debe predecir valores superiores a los reales e inferiores a los reales con igual probabilidad. Véase este "

Yo recomendaría primero graficar la respuesta frente a la variable independiente para ver la relación entre ellas. Podría ser razonable añadir términos polinómicos en el modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X