Estoy trabajando en un proyecto en el que estoy utilizando varias variables independientes para predecir los valores de un resultado mediante regresión lineal.
En el R esto se hace simplemente como
model <- lm(outcome ~ predictor1 + predictor2 + predictor3)
fitted <- model$fitted.values
Estoy interesado en la diferencia entre los valores predichos y los valores reales - es decir, la exactitud de los predictores.
residuals <- model$residuals
Mi pregunta se refiere a la relación entre residuals
y outcome
.
Las muestras con valores más bajos de outcome
tienden a tener valores negativos para residuals
, y viceversa para las muestras con alto outcome
valores.
Trazado de los valores de uno contra el otro, es la forma más sencilla de ver esto:
El $R^2$ para el original de la PELÍCULA (resultado ~ predictores) es de 0,42, el $R^2$ entre residuals
y outcome
es de 0,58, y el $R^2$ entre fitted
y outcome
es 0.39.
¿Qué podría explicar el fenómeno? ¿Por qué muestras con alto outcome
tienden a ser predicho menor de lo que realmente son, y viceversa para los valores más bajos de outcome
? O, de hecho, me estoy perdiendo algo conceptualmente aquí?
Muchas gracias por tu aporte
Editado (13.08.20) para incluir una actualización de las parcelas y de la terminología (ahora uso "residuos" en lugar de "diferencia") - pero, en esencia, la pregunta sigue siendo la misma. Gracias a todos por la entrada hasta ahora.