4 votos

¿Por qué son los residuos de este modelo tan linealmente sesgada?

Yo soy el ajuste de un modelo de regresión lineal simple con 4 predictores:

lm(Outcome ~ Predictor1 + Predictor2 + Predictor3 + Predictor4, data=dat.s)

Me estoy encontrando que las predicciones del modelo son consistentemente como se muestra en este gráfico: scatterplot of predictions and residuals

El modelo claramente sobrestima los valores bajos y subestima los valores altos, pero la señorita-la estimación es muy lineal -- parece que el modelo debe ser capaz de ajustar la inclinación y el ajuste de los datos mejor. ¿Por qué es que no está sucediendo? En caso de que ayuda, aquí están los diagramas de dispersión de los Resultados en contra de cada uno de los cuatro Predictores: enter image description here

El uso de la car paquete outlierTest la función de no identificar a cualquiera de los valores atípicos.

8voto

Eggs McLaren Puntos 945

Usted no debe graficar los residuales contra el predicator valores porque están correlacionados, en cambio, nos complot contra los valores ajustados, es decir,$\hat Y$. Para ver esto, considere la posibilidad de este conjunto de datos simples:

x = runif(20)
y = rnorm(20)

Claramente $x$ $y$ no están relacionados. Ahora, hemos ajustado un modelo de regresión lineal simple

m = lm(y ~ x)

y graficar los residuales contra el resultado y los valores ajustados

plot(y, residuals(m))
plot(fitted.values(m), residuals(m))

para obtener:

enter image description here

Aviso de que la conspiración contra el resultado $y$, no da ninguna pista. Por lo tanto, no está realmente claro si hay algo mal con su modelo ya no esperamos dispersión aleatoria.

4voto

Eero Puntos 1612

Lo que usted está viendo se llama "Regresión hacia la Media" y es totalmente esperado. Cualquier momento que existe variabilidad en los datos (y el tuyo parece que tiene un montón), la predicción de los valores en promedio, será entre el promedio y los valores observados. La trama se creó, de los resultados frente a los valores pronosticados no se suele hacer, por las razones que ustedes están viendo, se tiende a confundir más que iluminar. Es más común para graficar los valores predichos contra los residuos como este gráco se muestran más aleatoriedad si el modelo es razonable.

Editar a la dirección de comentarios de abajo

csgillespie el ejemplo ha sido criticado por sólo 1 de ellas predictor cuando a la pregunta original, se incluyen 4. Aquí hay algunas rápida R código que puede ejecutar para mostrar los mismos patrones con 4 predictores:

# simulated data, no relationship
df1 <- data.frame(y=rnorm(100), x1=rnorm(100), x2=rnorm(100),
        x3=rnorm(100), x4=rnorm(100))

fit1 <- lm( y ~ ., data=df1 )
#plot(df1$y, fitted(fit1), asp=1)
    scatter.smooth(df1$y, fitted(fit1), asp=1)
abline(0,1)
abline(h=mean(fitted(fit1)), col='lightgrey')
plot(df1$y, resid(fit1))
abline(h=0)

plot(fitted(fit1), resid(fit1))
abline(h=0)

# simulated data, relationship
library(MASS)
df2 <- as.data.frame( mvrnorm(100, mu=1:5, Sigma= matrix(.7,5,5)+diag(rep(.3,5))))
names(df2) <- c('y','x1','x2','x3','x4')

fit2 <- lm( y ~ ., data=df2 )
#plot(df2$y, fitted(fit2), asp=1)
    scatter.smooth(df2$y, fitted(fit2), asp=1)
abline(0,1)
abline(h=mean(fitted(fit2)), col='lightgrey')
plot(df2$y, resid(fit2))
abline(h=0)

plot(fitted(fit2), resid(fit2))
abline(h=0)


# real data
fit3 <- lm( Murder~Population+Income+Illiteracy+Frost, data=as.data.frame(state.x77))

scatter.smooth( state.x77[,'Murder'], fitted(fit3), asp=1)
abline(0,1)
abline(h=mean(fitted(fit3)), col='lightgrey')
plot(state.x77[,'Murder'], resid(fit3))
abline(h=0)

plot(fitted(fit3), resid(fit3))
abline(h=0)

Observe que las parcelas se ven muy similares a los en la pregunta original.

Observe también que en la trama de la original resultado frente a los valores ajustados que los puntos (y más por lo que su tendencia), tienden a caer entre el $y=x$ línea y la línea media. Esta es la idea de la regresión hacia la media como la descrita originalmente por Galton Ver Aquí. Los puntos no están dispersos al azar acerca de la $y=x$ línea como el cartel original asumido y lo que iba a suceder sin la regresión hacia la media, sino que siguen una tendencia lineal a lo largo de una línea que representa proportianality entre el $y=x$ y la media general de la línea, tal como lo predice la Galton. El término regresión hacia la media (y variantes) se usa a veces para otros conceptos (algunos más relación con el original que otros), como puede verse en el artículo anterior, y que puede ser donde parte de la confusión proviene.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X