9 votos

Tipo de residuos para comprobar los supuestos de la regresión lineal

Me gustaría entender mejor algunas recomendaciones que se suelen dar para elegir uno u otro tipo de residuos a la hora de comprobar los supuestos de un modelo linar.

  • Definamos el residuos brutos como los errores clásicos $\hat{\epsilon}_i = \hat{y}_i - y_i$
  • El residuos normalizados se definen por $\frac{\hat{\epsilon}_i}{\hat{\sigma}\sqrt{1 - h_{ii}}}$
  • Los residuos estudiados se definen como $\frac{\hat{\epsilon}_i}{\hat{\sigma_{(i)}}\sqrt{1 - h_{ii}}}$

Entiendo perfectamente por qué los residuos estandarizados o estudiados son preferibles a los residuos brutos cuando se comprueban los valores atípicos, por ejemplo. Pero para otras "comprobaciones posteriores al ajuste", no siempre veo la diferencia. Estas son mis preguntas:

  1. Cuando se comprueba la normalidad de los errores, ¿hay alguna diferencia en utilizar un tipo de residuos u otro? Algunos autores optan por un gráfico QQ de los residuos brutos frente a los cuantiles normales teóricos, mientras que otros autores recomiendan un gráfico QQ de los residuos estudiados frente a los cuantiles normales teóricos. $t$ quantiles, pero esto me parece equivalente. (No puedo imaginar ninguna situación en la que estos dos gráficos lleven a conclusiones diferentes).

  2. Cuando se comprueba la varianza constante, a menudo podemos leer que es ligeramente mejor utilizar los residuos estandarizados o estudiados en lugar de los residuos brutos. Supongo que esto se debe a que $V(\hat{\epsilon}) = \sigma^2 (I P_X)$ ¿Es decir, la varianza de los residuos brutos no es constante por construcción? En consecuencia, si una rápida inspección visual de los residuos brutos (trazados frente a los valores ajustados) revela una ligera heteroscedasticidad, no podemos saber realmente si proviene de la varianza no constante inherente a los residuos brutos o de un verdadero fenómeno en los datos? ¿Es ésta la razón?

  3. Excepto en el caso de las comprobaciones de autocorrelación, ¿hay alguna razón para preferir los residuos estudiados a los estandarizados (para las comprobaciones de normalidad, heteroscedasticidad y valores atípicos)?

2voto

Jordan Stewart Puntos 108
  1. Según mi experiencia, no debería obtener conclusiones diferentes al evaluar la normalidad de los residuos.

  2. Algunos autores señalan que deben evaluarse los residuos estandarizados z >|2,00|. Sin embargo, hay que tener en cuenta que el cálculo de los residuos estandarizados (ZRESID) se basa en la suposición, generalmente insostenible, de que todos los residuos tienen la misma varianza. Para evitar esta suposición, se sugiere utilizar en su lugar los residuos estandarizados (SRESID). Esencialmente, se puede lograr esto dividiendo cada residuo por su desviación estándar estimada.

  3. Para ser sincero, no estoy seguro, pero quería añadir un par de apuntes para su consideración. En cuanto a la autocorrelación: normalmente sólo tiene sentido comprobarla, una vez que sus observaciones tienen algún orden (por ejemplo, tiempo, distancia). Además, al comprobar los valores atípicos y los casos influyentes, podría pensar en utilizar la D (distancia) de Cook (Cook, 1977). Esta medida se diseñó para identificar una observación influyente o un caso atípico cuya influencia se debe a su situación en las variables independientes, en la variable dependiente o en ambas.

Referencias:

Cook, R. D. (1977). Detección de la observación influyente en la regresión lineal. Tecnometría, 19(1), 15-18.

Pedhazur, E. J. (1997). Regresión múltiple en la investigación del comportamiento: Explicación y predicción. Thompson Learning. Inc: Nueva York, NY.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X