8 votos

¿Qué significa este gráfico de residuos frente a los ajustados sobre mi modelo?

Tengo un modelo que intenta predecir el índice de calidad de vida de una nación por su indiferencia moral hacia la anticoncepción y el rechazo moral al juego. Inicialmente el modelo contenía varios predictores, pero eliminé la mayoría utilizando la eliminación hacia atrás a través de AIC. He aquí un resumen del modelo (generado con R):

> summary(fit1)

Call:
lm(formula = Quality.of.life.index ~ Morally.unacceptable.ga + 
    Not.a.moral.issue.co, data = qli_and_moral_ind)

Residuals:
    Min      1Q  Median      3Q     Max 
-89.670 -25.443  -4.732  36.129  64.441 

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)             143.1410    32.7499   4.371  0.00019 ***
Morally.unacceptable.ga  -1.7690     0.3603  -4.910 4.71e-05 ***
Not.a.moral.issue.co      1.4471     0.7925   1.826  0.07981 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 40.39 on 25 degrees of freedom
Multiple R-squared:  0.6079,    Adjusted R-squared:  0.5765 
F-statistic: 19.38 on 2 and 25 DF,  p-value: 8.266e-06

Hay dos gráficos del modelo que no puedo interpretar:

Norm QQ Plotresiduals versus fitted plot

Según la web, el gráfico de residuos anterior puede indicar un error predecible, es decir, que me falta alguna variable en mi modelo. ¿Es correcta esa apreciación? Si es así, ¿qué debería considerar añadir al modelo? Parece que el $y = x^3 - x$ gráfico - ¿quizás añadir un término cúbico?

10voto

Nick Sergeant Puntos 3792

La primera parcela ( Normal Q-Q ) comprueba si los residuos siguen una distribución normal, que es un supuesto de la regresión lineal. Si los puntos están sobre la línea y=x significa que los residuos están distribuidos normalmente. Su gráfico parece correcto en este aspecto.

El Residuals _versus_ Fitted es útil para ilustrar si se presenta un modelo lineal:

  1. relación no lineal entre la variable de respuesta y los predictores.

Una línea de tendencia horizontal en el gráfico indica la ausencia de patrones no lineales entre la respuesta y los predictores, que es lo que se espera en un modelo lineal.

  1. heteroscedasticidad (también conocida como heterogeneidad de la varianza).

Un modelo mostrará heteroscedasticidad cuando los residuos no se extiendan por igual a lo largo de los valores ajustados.

Sin embargo, como sugiere @BenBolker, una mejor alternativa para visualizar la homo/heteroscedasticidad es el Scale-Location (utiliza el Residuos normalizados frente a los valores ajustados) por las razones escritas:

Pero, ¿por qué? heteroscedasticidad ¿es malo?

Según el artículo de Wikipedia:

...la presencia de heteroscedasticidad puede invalidar las pruebas estadísticas de significación que suponen que los errores de modelización no están correlacionados y se distribuyen normalmente y que sus varianzas no varían con los efectos que se modelan.

En otras palabras, si se observara heteroscedasticidad, los errores estándar de los parámetros (calculados mediante pruebas t) no tendrían mucho sentido.

Sin embargo, su trama parece estar bien.


Un buen artículo complementario es Comprensión de los gráficos de diagnóstico para el análisis de regresión lineal de Bommae Kim, Universidad de Virginia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X