Según la discusión en Draper and Smith's Análisis de regresión aplicado (3ª edición, aproximadamente en la página 59), este gráfico de residuos puede utilizarse para comprobar si se incumplen los supuestos del modelo, sobre todo en relación con una especificación incorrecta o la presencia de heteroscedasticidad.
En caso de que no se detecte ninguna infracción, la cifra podría ser la siguiente.
Obsérvese que los residuos se distribuyen aleatoriamente dentro de las líneas horizontales rojas, formando una banda horizontal a lo largo de los valores ajustados. No hay ningún patrón visible, lo que indica que nuestro modelo de regresión especifica una relación adecuada entre el resultado, $Y$ y las covariables, $X$ .
Una figura que muestra una posible violación de los supuestos del modelo es
donde una banda horizontal con una anchura determinada puede funcionar bien para una parte de los datos, pero podría no funcionar tan bien para otra sección de los valores ajustados. En este ejemplo, las varianzas para el primer cuarto de los datos, hasta aproximadamente un valor ajustado de 40, son menores que las varianzas para valores ajustados superiores a 40. La parte central de los valores ajustados tiene varianzas sustancialmente mayores que los valores exteriores. Esto indica que el modelo de regresión puede no haber tenido en cuenta la heteroscedasticidad.
Como @ben-bolker menciona en sus comentarios en las preguntas vinculadas, este gráfico de diagnóstico puede ser incluso más adecuado para la detección de relaciones no lineales que no se incluyeron en la especificación. A continuación se presentan dos ejemplos simulados reproducibles de relaciones no lineales. (el código R se presenta al final del post).
El primer gráfico repite el escenario ideal, en el que la especificación de la regresión, $Y = \beta_0 + \beta_1 X + \epsilon$ modela adecuadamente la relación subyacente. En este caso, el gráfico de ajuste frente a residuos es
donde las líneas rojas horizontales están trazadas a +- 2. Como en la primera figura, los puntos se sitúan más o menos en esta banda horizontal y ningún residuo tiene una magnitud superior a 3 ( max(abs(regs[[1]]$residuals))
devuelve 2,932835).
En el segundo ejemplo, la variable de resultado tiene una relación cuadrática con su covariable, $Y = \beta_0 + \beta_1 X + \beta_2 X^2$ pero la especificación de la regresión sólo permite una relación lineal. En este caso, el gráfico de ajuste frente a los residuos muestra un signo bastante fuerte de no linealidad con una forma de "U" invertida. Esto se debe a que el término de segundo orden de $X$ tiene una relación negativa con $Y$ .
El tercer ejemplo muestra un caso en el que $\ln Y$ tiene una relación lineal con X, con $Y = \exp{(\beta_0 + \beta_1 * x + \epsilon)}$ pero el modelo no tiene en cuenta la transformación necesaria de $Y$ .
En este caso, la cifra indica una tendencia negativa que no se tiene en cuenta, quizá un poco en forma de embudo que indica heteroscedasticidad. Además, hay un mayor número de residuos con valores extremos, con 31 de 500 valores superiores a 3 y cuatro fuera de la ventana del gráfico, con valores de aproximadamente (10,1, 10,5 16,4 y 18,2). Esto se relaciona con el ejemplo de error no normal de Respuesta de @glenn-b a la pregunta enlazada por @gung más arriba.
datos
set.seed(1234)
x <- rnorm(500)
x4 <- (.1 * x) + rnorm(500)
y1 <- 2 * x + rnorm(500)
y2 <- 2 * x + - (.5 * x^2) + rnorm(500)
y3 <- exp(.5 * x + rnorm(500))
# put data into dataframe to organize results
df <- data.frame(x, y1, y2, y3, y4)
# run regressions
regs <- lapply(df[-1], function(y) lm(y ~ x, data=df))
0 votos
Gracias a todos los que me han contestado. Para los que están de celebración, ¡felices fiestas!
0 votos
Creo que el problema con el duplicado propuesto es que existe una trama mejor, por lo que la respuesta no establece la estrategia óptima.
0 votos
Hilo canónico: Interpretación del gráfico de residuos frente a valores ajustados para verificar los supuestos de un modelo lineal .
0 votos
Sí, pero prefiero que las cosas se expliquen desde la salida de R.