Me interesa saber por qué los gráficos de residuos se trazan con los residuos contra la variable predicha de y y no contra y?
Respuesta
¿Demasiados anuncios?El modelo de regresión lineal estándar (OLS) es:
$$ Y = \beta_0 + \beta_1X + \varepsilon \\ \text{where }\ \varepsilon \sim \mathcal N(0, \sigma^2) $$ Lo importante es reconocer que el término de error se distribuye normalmente con una varianza que no depende de $X$ . Desde $\hat Y = \beta_0 + \beta_1X$ los residuos 1 de nuestro modelo pueden utilizarse como estimaciones de los errores del proceso de generación de datos, y podemos inspeccionar el gráfico de los residuos frente a los valores ajustados para evaluar el supuesto de varianza constante (homocedasticidad). Para entenderlo mejor, puede ser útil leer mi respuesta aquí: ¿Qué significa tener "varianza constante" en un modelo de regresión lineal? Por otro lado, no está claro qué significa un gráfico de los residuos frente a los $Y$ valores ilustrarían. De hecho, por lo general, esperamos cierto grado de correlación entre los residuos y $Y$ . (Puede ser útil leer este excelente hilo sobre el CV: ¿Cuál es la correlación esperada entre el residuo y la variable dependiente? )
Además, el gráfico de los residuos frente a los valores ajustados puede utilizarse para ayudar a identificar una forma funcional mal especificada 2 . Una vez más, ya que esperamos que los residuos y $Y$ que estén correlacionados, el gráfico de los residuos frente a los $Y$ valores serán engañosos en esta cuestión.
Utilizando el código y los datos de mi respuesta enlazada anteriormente, considere estos cuatro gráficos:
Ninguno de los dos modelos está mal especificado, pero el modelo representado en los dos gráficos de la derecha tiene heteroscedasticidad. Los gráficos superiores le ayudan a identificar la clara heteroscedasticidad de la derecha, sin llevarle a preocuparse por una posible forma funcional mal especificada. Los gráficos de la parte inferior denotan incorrectamente una especificación errónea, y lo hacen con más fuerza de lo que nos informan sobre el estado del supuesto de varianza constante.
1. En realidad, aquí utilizamos los residuos estandarizados.
2. Esto se hace más difícil con el aumento del número de $X$ variables, sin embargo.
4 votos
¿Ayuda eso? Predicho por el gráfico de residuos en R