7 votos

¿Intenta comprender el gráfico de ajuste frente a los residuos?

The first graph: residual vs fitted plot

Un buen gráfico de residuales frente a ajustados tiene tres características:

  • Los residuos "rebotan aleatoriamente" alrededor de la línea 0. Esto sugiere que la hipótesis de que la relación es lineal es razonable.

  • Los residuos forman aproximadamente una "banda horizontal" alrededor de la línea 0. Esto sugiere que las varianzas de los términos de error son iguales.

  • Ningún residuo "sobresale" del patrón aleatorio básico de residuos. Esto sugiere que no hay valores atípicos.

(Fuente: https://onlinecourses.science.psu.edu/stat501/node/36 enlace no funciona enero 2019 )

En particular, no estoy seguro de lo que quieren decir con una banda horizontal en el segundo punto. ¿Es la curva roja del gráfico?

Entonces, ¿el segundo punto se refiere a la homocedasticidad?

0 votos

Gracias a todos los que me han contestado. Para los que están de celebración, ¡felices fiestas!

0 votos

Creo que el problema con el duplicado propuesto es que existe una trama mejor, por lo que la respuesta no establece la estrategia óptima.

9voto

Erka Puntos 21

Según la discusión en Draper and Smith's Análisis de regresión aplicado (3ª edición, aproximadamente en la página 59), este gráfico de residuos puede utilizarse para comprobar si se incumplen los supuestos del modelo, sobre todo en relación con una especificación incorrecta o la presencia de heteroscedasticidad.

En caso de que no se detecte ninguna infracción, la cifra podría ser la siguiente.

enter image description here

Obsérvese que los residuos se distribuyen aleatoriamente dentro de las líneas horizontales rojas, formando una banda horizontal a lo largo de los valores ajustados. No hay ningún patrón visible, lo que indica que nuestro modelo de regresión especifica una relación adecuada entre el resultado, $Y$ y las covariables, $X$ .

Una figura que muestra una posible violación de los supuestos del modelo es

enter image description here

donde una banda horizontal con una anchura determinada puede funcionar bien para una parte de los datos, pero podría no funcionar tan bien para otra sección de los valores ajustados. En este ejemplo, las varianzas para el primer cuarto de los datos, hasta aproximadamente un valor ajustado de 40, son menores que las varianzas para valores ajustados superiores a 40. La parte central de los valores ajustados tiene varianzas sustancialmente mayores que los valores exteriores. Esto indica que el modelo de regresión puede no haber tenido en cuenta la heteroscedasticidad.

Como @ben-bolker menciona en sus comentarios en las preguntas vinculadas, este gráfico de diagnóstico puede ser incluso más adecuado para la detección de relaciones no lineales que no se incluyeron en la especificación. A continuación se presentan dos ejemplos simulados reproducibles de relaciones no lineales. (el código R se presenta al final del post).

El primer gráfico repite el escenario ideal, en el que la especificación de la regresión, $Y = \beta_0 + \beta_1 X + \epsilon$ modela adecuadamente la relación subyacente. En este caso, el gráfico de ajuste frente a residuos es

enter image description here

donde las líneas rojas horizontales están trazadas a +- 2. Como en la primera figura, los puntos se sitúan más o menos en esta banda horizontal y ningún residuo tiene una magnitud superior a 3 ( max(abs(regs[[1]]$residuals)) devuelve 2,932835).

En el segundo ejemplo, la variable de resultado tiene una relación cuadrática con su covariable, $Y = \beta_0 + \beta_1 X + \beta_2 X^2$ pero la especificación de la regresión sólo permite una relación lineal. En este caso, el gráfico de ajuste frente a los residuos muestra un signo bastante fuerte de no linealidad con una forma de "U" invertida. Esto se debe a que el término de segundo orden de $X$ tiene una relación negativa con $Y$ .

enter image description here

El tercer ejemplo muestra un caso en el que $\ln Y$ tiene una relación lineal con X, con $Y = \exp{(\beta_0 + \beta_1 * x + \epsilon)}$ pero el modelo no tiene en cuenta la transformación necesaria de $Y$ .

enter image description here

En este caso, la cifra indica una tendencia negativa que no se tiene en cuenta, quizá un poco en forma de embudo que indica heteroscedasticidad. Además, hay un mayor número de residuos con valores extremos, con 31 de 500 valores superiores a 3 y cuatro fuera de la ventana del gráfico, con valores de aproximadamente (10,1, 10,5 16,4 y 18,2). Esto se relaciona con el ejemplo de error no normal de Respuesta de @glenn-b a la pregunta enlazada por @gung más arriba.

datos

set.seed(1234)

x <- rnorm(500)
x4 <- (.1 * x) + rnorm(500)
y1 <- 2 * x + rnorm(500)
y2 <- 2 * x + - (.5 * x^2) + rnorm(500)
y3 <- exp(.5 * x + rnorm(500))

# put data into dataframe to organize results
df <- data.frame(x, y1, y2, y3, y4)

# run regressions
regs <- lapply(df[-1], function(y) lm(y ~ x, data=df))

6voto

Ben Bolker Puntos 8729

Para seguir con la respuesta de @mdewey y discrepar ligeramente con la de @jjet: el escala-localización en la parte inferior izquierda es el mejor para evaluar la homo/heteroscedasticidad. Por dos razones:

  • como planteó @mdewey: es más fácil juzgar si la pendiente de una línea que la cantidad de dispersión de una nube de puntos, y más fácil de ajustar una línea suave no paramétrica a ella para fines de visualización
  • un conjunto de datos con una distribución no uniforme del valor ajustado (que no es problemática en sí misma) puede engañar al observador haciéndole creer que hay heteroscedasticidad, porque el ojo tiende a elegir los extremos. Dado que un mayor número de observaciones da lugar a residuos más extremos (en el sentido de las estadísticas de orden), parecerá que hay más variabilidad en los rangos con más datos. En este caso hay menos puntos hacia los extremos de los valores ajustados, lo que hace que parezca que la variabilidad es mayor en el centro. El gráfico de localización de escala evita este problema.

5voto

mdewey Puntos 579

Si se fija en la parcela superior izquierda, entonces sí. Sin embargo, el mejor gráfico para lo que pretendes es el de la parte inferior izquierda, que dobla los residuos en torno al eje horizontal del primero, de modo que la línea suavizada trazada en ese gráfico debería ser horizontal si no hay relación entre la escala y la ubicación. En tu caso, no está tan mal, ya que es probable que la caída de la izquierda sólo esté provocada por un par de puntos.

3voto

anonimus.riga Puntos 21

El segundo punto se evalúa mejor utilizando el gráfico superior izquierdo. Básicamente, se trata de comprobar si la dispersión de los residuos es la misma en todos los puntos a lo largo del eje x. Si lo es, entonces usted tiene que comprobar si la dispersión de los residuos es la misma en todos los puntos a lo largo del eje x. Si es así, entonces verá una banda de puntos que se mueven horizontalmente a lo largo del eje x. Esto sugeriría poca evidencia de heterogeneidad. Esto sugeriría que hay pocos indicios de heteroscedasticidad. Si, por el contrario, parece que los puntos aumentan o disminuyen a medida que se avanza de derecha a izquierda, entonces podría decirse que "la banda de puntos aumenta/disminuye" en lugar de permanecer estrictamente horizontal. La noción de "banda" de puntos se refiere en realidad a la forma subjetiva general del diagrama de dispersión y no a algo específico.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X