Me gustaría hacer una prueba W de Shapiro Wilk y una prueba Kolmogorov-Smirnov en los residuos de un modelo lineal para comprobar la normalidad. Me preguntaba qué residuos deberían usarse para esto: ¿los residuos brutos, los residuos de Pearson, los residuos estudiados o los residuos estandarizados? Para una prueba W de Shapiro-Wilk parece que los resultados de los residuos brutos y los residuos Pearson son idénticos pero no para los otros.
fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143
La misma pregunta para el K-S, y también si los residuos deben ser probados contra una distribución normal (pnorm) como en
ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563
o una distribución t-estudiante con n-k-2 grados de libertad, como en
ks.test(res3, "pt",df=nrow(mtcars)-2-2)
¿Algún consejo, tal vez? Además, ¿cuáles son los valores recomendados para las estadísticas de prueba W (>0,9?) y D para que la distribución se acerque lo suficiente a la normalidad y no afecte demasiado a su inferencia?
Por último, ¿tiene este enfoque en cuenta la incertidumbre en los coeficientes de lm ajustados, o funcionaría cumres()
en el paquete gof()
ser mejor en este aspecto?
Salud, Tom
10 votos
Es raro que una prueba de este tipo tenga algún sentido. Pregúntese qué medidas concretas tomaría si los residuos resultaran ser "significativamente" no normales. La experiencia le enseña que depende de cómo y cuánto se diferencien de la normalidad. Ninguno de los dos se mide directamente (o adecuadamente) mediante SW, KS o cualquier otra prueba de distribución formal. Para este trabajo se quiere emplear gráficos exploratorios, no pruebas formales. La cuestión de qué residuos pueden ser adecuados para el trazado sigue en pie, pero el resto de las cuestiones se quedan en el camino por ser irrelevantes.
0 votos
Sí, he observado que muchos estadísticos defienden esta postura. Pero aún así, me gustaría comprobar los estadísticos de estas pruebas (por ejemplo, comprobar si el valor de la W de Shapiro Wilks es superior a 0,9). Y siempre podría hacer una transformación Box-Cox o algo así para mejorar la normalidad en caso de grandes desviaciones. Además, mi pregunta era en parte conceptual, es decir, cuál sería la forma más correcta de hacer esto, aunque la normalidad no sea siempre tan importante en la práctica...