7 votos

Al utilizar análisis de regresión lineal para obtener los valores ajustados de un resultado, ¿por qué los valores más extremos tienden a predecir más cercano a la media?

Estoy trabajando en un proyecto en el que estoy utilizando varias variables independientes para predecir los valores de un resultado mediante regresión lineal.

En el R esto se hace simplemente como

model  <- lm(outcome ~ predictor1 + predictor2 + predictor3)
fitted <- model$fitted.values

Estoy interesado en la diferencia entre los valores predichos y los valores reales - es decir, la exactitud de los predictores.

residuals <- model$residuals

Mi pregunta se refiere a la relación entre residuals y outcome.

Las muestras con valores más bajos de outcome tienden a tener valores negativos para residuals, y viceversa para las muestras con alto outcome valores.

Trazado de los valores de uno contra el otro, es la forma más sencilla de ver esto:

Various plots

El $R^2$ para el original de la PELÍCULA (resultado ~ predictores) es de 0,42, el $R^2$ entre residuals y outcome es de 0,58, y el $R^2$ entre fitted y outcome es 0.39.

¿Qué podría explicar el fenómeno? ¿Por qué muestras con alto outcome tienden a ser predicho menor de lo que realmente son, y viceversa para los valores más bajos de outcome? O, de hecho, me estoy perdiendo algo conceptualmente aquí?

Muchas gracias por tu aporte


Editado (13.08.20) para incluir una actualización de las parcelas y de la terminología (ahora uso "residuos" en lugar de "diferencia") - pero, en esencia, la pregunta sigue siendo la misma. Gracias a todos por la entrada hasta ahora.

6voto

Nick Cox Puntos 22819
  • Habitual de los convenios

La costumbre convencionales nombre y definición son

los residuos = resultado $-$ equipada

Del mismo modo, la costumbre convencional trama es residuales (eje y) versus equipada (eje x).

En R, dado algo como

mymodel = lm(outcome ~ predictor1 + predictor2 + predictor3)

entonces

plot(mymodel) 

le da a la trama como uno de una cartera. Que, por lo general, mucho más fácil de parcela para pensar acerca de su parcela. También puede parcela outcome versus fitted. La primera es la crítica, en la exposición de las debilidades del modelo, y el segundo es positivo, centrándose en la fuerza de la modelo.

  • Lo que originalmente hizo

La costumbre es que de observarse $y$, equipada $\hat y$, y residual $e$ vinculado por

$y = \hat y + e$

Con este set-up de una parcela de $y$ frente al $e$ total pendiente de $+1$. Hay variabilidad en torno a que, en general, la pendiente, pero no se correlaciona sobre todo con los residuos. Su original difference variable contenida en negación de los residuos, de modo que el balance pendiente se convirtió $-1$.

  • Nota en $R^2$

En su caso, tenga en cuenta que los dos valores de $R^2$ agregar a 1, es decir,$0.42 + 0.58 = 1$, lo que se deduce del hecho de que la proporción de la varianza "explicado" por el modelo y la proporción de la varianza "no se explica" son mutuamente excluyentes. (La correlación entre los residuales y está equipado de cero, por lo que el término de covarianza es cero.)

  • Resumen

El espíritu de su trama original (ahora suprimido) estaba en lo correcto, pero es mejor sólo para graficar los residuales frente equipada. De hecho, lo que hizo desconcertado o confundir a algunas personas porque no confundas un procedimiento que no es estándar para uno que es. El patrón de su parcela tiene sentido y no es incorrecta o anómala.

5voto

Vincent Puntos 1064

Esta figura muestra que parece ser una variable significativa que faltan.

Debido a que los residuos tienen una tendencia clara, es decir que contienen información importante.

Si usted tiene no más variable en los datos, tal vez podría probar las interacciones.

3voto

Zizzencs Puntos 1358

Básicamente, es porque la regresión no es perfecta.

Supongamos que tuvieras datos puramente aleatorios - ninguna relación entre las variables dependientes e independientes. Entonces la mejor predicción de la DV para cada sujeto sería la media de la DV.

Suponga que usted tenía una relación perfecta; entonces podrá predecir exactamente el DV.

En realidad, es siempre un lugar en el medio, y los valores predichos están entre la media y los valores reales.

3voto

Eero Puntos 1612

El concepto no es nuevo y se denomina regresión a la media, o regresión hacia la media, vea aquí para la historia y detalle. De hecho se dice que se trata de cómo el análisis de regresión (modelos lineales, mínimos cuadrados, etc.) terminó siendo llamado "regresión".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X