¿Qué ocurre si los residuos no son homocedásticos? Si los residuos muestran un patrón creciente o decreciente en el gráfico de residuos frente al ajuste.
Si el término de error no es homocedástico (utilizamos los residuos como una aproximación al término de error inobservable), el estimador MCO sigue siendo consistente e insesgado, pero ya no es el más eficiente de la clase de estimadores lineales. Ahora es el estimador GLS el que disfruta de esta propiedad.
¿Qué ocurre si los residuos no están distribuidos normalmente y no superan la prueba de Shapiro-Wilk? La prueba de normalidad de Shapiro-Wilk es una prueba muy estricta y, a veces, aunque el gráfico Normal-QQ parezca algo razonable, los datos no superan la prueba.
El teorema de Gauss-Markov no exige la normalidad. El estimador OLS sigue siendo BLUE, pero sin normalidad tendrá dificultades para hacer inferencia, es decir, pruebas de hipótesis e intervalos de confianza, al menos para tamaños de muestra finitos. Sin embargo, sigue existiendo el bootstrap.
Asintóticamente esto es menos problemático ya que el estimador OLS tiene una distribución normal limitante bajo condiciones de regularidad leves.
¿Qué sucede si uno o más predictores no están distribuidos normalmente, no se ven bien en el gráfico Normal-QQ o si los datos no pasan la prueba de Shapiro-Wilk?
Por lo que sé, los predictores se consideran fijos o la regresión está condicionada a ellos. Esto limita el efecto de la no normalidad.
¿Qué significa el incumplimiento de la normalidad para un modelo que se ajusta bien según el valor de R-cuadrado? ¿Se vuelve menos fiable o completamente inútil?
El R-cuadrado es la proporción de la varianza explicada por el modelo. No requiere el supuesto de normalidad y es una medida de la bondad del ajuste a pesar de todo. Sin embargo, si quiere utilizarlo para una prueba F parcial, eso es otra historia.
¿Hasta qué punto es aceptable la desviación, o es aceptable en absoluto?
Te refieres a la desviación de la normalidad, ¿no? Realmente depende de tus propósitos porque, como he dicho, la inferencia se vuelve difícil en ausencia de normalidad, pero no es imposible (¡bootstrap!).
Al aplicar transformaciones a los datos para cumplir los criterios de normalidad, ¿el modelo mejora si los datos son más normales (mayor valor P en la prueba de Shapiro-Wilk, mejor aspecto en el gráfico Q-Q normal), o es inútil (igual de bueno o malo en comparación con el original) hasta que los datos pasan la prueba de normalidad?
En resumen, si tienes todos los supuestos de Gauss-Markov más normalidad entonces el estimador OLS es el mejor insesgado (BUE), es decir, el más eficiente en todo clases de estimadores - se alcanza el límite inferior de Cramer-Rao. Esto es deseable, por supuesto, pero no es el fin del mundo si no ocurre. Las observaciones anteriores son válidas.
En cuanto a las transformaciones, hay que tener en cuenta que, aunque la distribución de la respuesta puede acercarse a la normalidad, la interpretación puede no ser sencilla después.
Estas son sólo algunas respuestas breves a sus preguntas. Parece que le preocupan especialmente las implicaciones de la no normalidad. En general, diría que no es tan catastrófico como se ha hecho creer a la gente y que hay soluciones. Las dos referencias que he incluido son un buen punto de partida para seguir leyendo, la primera de ellas de carácter teórico.
Referencias :
Hayashi, Fumio: "Econometría", Princeton University Press, 2000
Kutner, Michael H., et al. "Applied linear statistical models", McGraw-Hill Irwin, 2005.