Me gustaría entender mejor algunas recomendaciones que se suelen dar para elegir uno u otro tipo de residuos a la hora de comprobar los supuestos de un modelo linar.
- Definamos el residuos brutos como los errores clásicos $\hat{\epsilon}_i = \hat{y}_i - y_i$
- El residuos normalizados se definen por $\frac{\hat{\epsilon}_i}{\hat{\sigma}\sqrt{1 - h_{ii}}}$
- Los residuos estudiados se definen como $\frac{\hat{\epsilon}_i}{\hat{\sigma_{(i)}}\sqrt{1 - h_{ii}}}$
Entiendo perfectamente por qué los residuos estandarizados o estudiados son preferibles a los residuos brutos cuando se comprueban los valores atípicos, por ejemplo. Pero para otras "comprobaciones posteriores al ajuste", no siempre veo la diferencia. Estas son mis preguntas:
-
Cuando se comprueba la normalidad de los errores, ¿hay alguna diferencia en utilizar un tipo de residuos u otro? Algunos autores optan por un gráfico QQ de los residuos brutos frente a los cuantiles normales teóricos, mientras que otros autores recomiendan un gráfico QQ de los residuos estudiados frente a los cuantiles normales teóricos. $t$ quantiles, pero esto me parece equivalente. (No puedo imaginar ninguna situación en la que estos dos gráficos lleven a conclusiones diferentes).
-
Cuando se comprueba la varianza constante, a menudo podemos leer que es ligeramente mejor utilizar los residuos estandarizados o estudiados en lugar de los residuos brutos. Supongo que esto se debe a que $V(\hat{\epsilon}) = \sigma^2 (I P_X)$ ¿Es decir, la varianza de los residuos brutos no es constante por construcción? En consecuencia, si una rápida inspección visual de los residuos brutos (trazados frente a los valores ajustados) revela una ligera heteroscedasticidad, no podemos saber realmente si proviene de la varianza no constante inherente a los residuos brutos o de un verdadero fenómeno en los datos? ¿Es ésta la razón?
-
Excepto en el caso de las comprobaciones de autocorrelación, ¿hay alguna razón para preferir los residuos estudiados a los estandarizados (para las comprobaciones de normalidad, heteroscedasticidad y valores atípicos)?