Lo que usted está viendo se llama "Regresión hacia la Media" y es totalmente esperado. Cualquier momento que existe variabilidad en los datos (y el tuyo parece que tiene un montón), la predicción de los valores en promedio, será entre el promedio y los valores observados. La trama se creó, de los resultados frente a los valores pronosticados no se suele hacer, por las razones que ustedes están viendo, se tiende a confundir más que iluminar. Es más común para graficar los valores predichos contra los residuos como este gráco se muestran más aleatoriedad si el modelo es razonable.
Editar a la dirección de comentarios de abajo
csgillespie el ejemplo ha sido criticado por sólo 1 de ellas predictor cuando a la pregunta original, se incluyen 4. Aquí hay algunas rápida R código que puede ejecutar para mostrar los mismos patrones con 4 predictores:
# simulated data, no relationship
df1 <- data.frame(y=rnorm(100), x1=rnorm(100), x2=rnorm(100),
x3=rnorm(100), x4=rnorm(100))
fit1 <- lm( y ~ ., data=df1 )
#plot(df1$y, fitted(fit1), asp=1)
scatter.smooth(df1$y, fitted(fit1), asp=1)
abline(0,1)
abline(h=mean(fitted(fit1)), col='lightgrey')
plot(df1$y, resid(fit1))
abline(h=0)
plot(fitted(fit1), resid(fit1))
abline(h=0)
# simulated data, relationship
library(MASS)
df2 <- as.data.frame( mvrnorm(100, mu=1:5, Sigma= matrix(.7,5,5)+diag(rep(.3,5))))
names(df2) <- c('y','x1','x2','x3','x4')
fit2 <- lm( y ~ ., data=df2 )
#plot(df2$y, fitted(fit2), asp=1)
scatter.smooth(df2$y, fitted(fit2), asp=1)
abline(0,1)
abline(h=mean(fitted(fit2)), col='lightgrey')
plot(df2$y, resid(fit2))
abline(h=0)
plot(fitted(fit2), resid(fit2))
abline(h=0)
# real data
fit3 <- lm( Murder~Population+Income+Illiteracy+Frost, data=as.data.frame(state.x77))
scatter.smooth( state.x77[,'Murder'], fitted(fit3), asp=1)
abline(0,1)
abline(h=mean(fitted(fit3)), col='lightgrey')
plot(state.x77[,'Murder'], resid(fit3))
abline(h=0)
plot(fitted(fit3), resid(fit3))
abline(h=0)
Observe que las parcelas se ven muy similares a los en la pregunta original.
Observe también que en la trama de la original resultado frente a los valores ajustados que los puntos (y más por lo que su tendencia), tienden a caer entre el $y=x$ línea y la línea media. Esta es la idea de la regresión hacia la media como la descrita originalmente por Galton Ver Aquí. Los puntos no están dispersos al azar acerca de la $y=x$ línea como el cartel original asumido y lo que iba a suceder sin la regresión hacia la media, sino que siguen una tendencia lineal a lo largo de una línea que representa proportianality entre el $y=x$ y la media general de la línea, tal como lo predice la Galton. El término regresión hacia la media (y variantes) se usa a veces para otros conceptos (algunos más relación con el original que otros), como puede verse en el artículo anterior, y que puede ser donde parte de la confusión proviene.