14 votos

R: probar la normalidad de los residuos del modelo lineal - qué residuos utilizar

Me gustaría hacer una prueba W de Shapiro Wilk y una prueba Kolmogorov-Smirnov en los residuos de un modelo lineal para comprobar la normalidad. Me preguntaba qué residuos deberían usarse para esto: ¿los residuos brutos, los residuos de Pearson, los residuos estudiados o los residuos estandarizados? Para una prueba W de Shapiro-Wilk parece que los resultados de los residuos brutos y los residuos Pearson son idénticos pero no para los otros.

fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143

La misma pregunta para el K-S, y también si los residuos deben ser probados contra una distribución normal (pnorm) como en

ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563

o una distribución t-estudiante con n-k-2 grados de libertad, como en

ks.test(res3, "pt",df=nrow(mtcars)-2-2) 

¿Algún consejo, tal vez? Además, ¿cuáles son los valores recomendados para las estadísticas de prueba W (>0,9?) y D para que la distribución se acerque lo suficiente a la normalidad y no afecte demasiado a su inferencia?

Por último, ¿tiene este enfoque en cuenta la incertidumbre en los coeficientes de lm ajustados, o funcionaría cumres() en el paquete gof() ser mejor en este aspecto?

Salud, Tom

10 votos

Es raro que una prueba de este tipo tenga algún sentido. Pregúntese qué medidas concretas tomaría si los residuos resultaran ser "significativamente" no normales. La experiencia le enseña que depende de cómo y cuánto se diferencien de la normalidad. Ninguno de los dos se mide directamente (o adecuadamente) mediante SW, KS o cualquier otra prueba de distribución formal. Para este trabajo se quiere emplear gráficos exploratorios, no pruebas formales. La cuestión de qué residuos pueden ser adecuados para el trazado sigue en pie, pero el resto de las cuestiones se quedan en el camino por ser irrelevantes.

0 votos

Sí, he observado que muchos estadísticos defienden esta postura. Pero aún así, me gustaría comprobar los estadísticos de estas pruebas (por ejemplo, comprobar si el valor de la W de Shapiro Wilks es superior a 0,9). Y siempre podría hacer una transformación Box-Cox o algo así para mejorar la normalidad en caso de grandes desviaciones. Además, mi pregunta era en parte conceptual, es decir, cuál sería la forma más correcta de hacer esto, aunque la normalidad no sea siempre tan importante en la práctica...

9voto

AdamSane Puntos 1825

Se hizo demasiado largo para un comentario.

  1. Para un modelo de regresión ordinario (como el que se ajustaría con lm ), no hay distinción entre los dos primeros tipos de residuos que consideres; type="pearson" es relevante para los GLM no gaussianos, pero es lo mismo que response para los modelos gaussianos.

  2. Las observaciones a las que aplicas tus pruebas (alguna forma de residuos) no son independientes, por lo que los estadísticos habituales no tienen la distribución correcta. Además, estrictamente hablando, ninguno de los residuos que consideres será exactamente normal, ya que tus datos nunca serán exactamente normales. [Las pruebas formales responden a la pregunta equivocada; una pregunta más relevante sería "¿en qué medida afectará esta no normalidad a mi inferencia?", una pregunta a la que no responden las pruebas de hipótesis de bondad de ajuste habituales].

  3. Incluso si sus datos fueran exactamente normales, ni el tercer ni el cuarto tipo de residuo serían exactamente normales. Sin embargo, es mucho más común que la gente examine estos (por ejemplo, mediante gráficos QQ) que los residuos brutos.

  4. Podría superar algunos de los problemas de los puntos 2. y 3. (la dependencia de los residuos y la no normalidad de los residuos estandarizados) mediante una simulación condicionada a la matriz de diseño ( $\mathbf{X}$ ), lo que significa que puedes usar los residuos que quieras (sin embargo, no puedes lidiar con el problema de "responder a una pregunta inútil de la que ya sabes la respuesta" de esa manera).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X