32 votos

¿Hasta qué punto es incorrecto un modelo de regresión cuando no se cumplen los supuestos?

Al ajustar un modelo de regresión, ¿qué ocurre si no se cumplen los supuestos de los resultados, en concreto?

  1. ¿Qué ocurre si los residuos no son homocedásticos? Si los residuales muestran un patrón creciente o decreciente en el gráfico Residuales vs. Ajuste. Gráfico de ajuste.
  2. ¿Qué ocurre si los residuos no se distribuyen normalmente, y fallan la prueba de Shapiro-Wilk? La prueba de normalidad de Shapiro-Wilk es una prueba muy prueba muy estricta, y a veces, aunque el gráfico de la Normal-QQ parezca razonable, los datos no superan la prueba. razonable, los datos no superan la prueba.
  3. Qué ocurre si uno o varios predictores no se distribuyen normalmente, no se ven bien en el gráfico Normal-QQ o si los datos no pasan la prueba de prueba de Shapiro-Wilk?

Entiendo que no hay una división dura en blanco y negro, que 0,94 está bien y 0,95 está mal, y en la pregunta, quiero saber:

  1. ¿Qué significa el fracaso de la normalidad para un modelo que es un buen ajuste según el valor de R-cuadrado. ¿Se vuelve menos fiable, o completamente inútil?
  2. ¿Hasta qué punto es aceptable la desviación, o es aceptable en aceptable?
  3. Al aplicar transformaciones en los datos para cumplir con la normalidad criterios de normalidad, ¿el modelo mejora si los datos son más normales (mayor valor P en la prueba de Shapiro-Wilk, mejor aspecto de la normalidad Q-Q normal), o es inútil (igual de bueno o malo en comparación con el original) hasta que los datos pasen la prueba de normalidad?

38voto

mark Puntos 232

¿Qué ocurre si los residuos no son homocedásticos? Si los residuos muestran un patrón creciente o decreciente en el gráfico de residuos frente al ajuste.

Si el término de error no es homocedástico (utilizamos los residuos como una aproximación al término de error inobservable), el estimador MCO sigue siendo consistente e insesgado, pero ya no es el más eficiente de la clase de estimadores lineales. Ahora es el estimador GLS el que disfruta de esta propiedad.

¿Qué ocurre si los residuos no están distribuidos normalmente y no superan la prueba de Shapiro-Wilk? La prueba de normalidad de Shapiro-Wilk es una prueba muy estricta y, a veces, aunque el gráfico Normal-QQ parezca algo razonable, los datos no superan la prueba.

El teorema de Gauss-Markov no exige la normalidad. El estimador OLS sigue siendo BLUE, pero sin normalidad tendrá dificultades para hacer inferencia, es decir, pruebas de hipótesis e intervalos de confianza, al menos para tamaños de muestra finitos. Sin embargo, sigue existiendo el bootstrap.

Asintóticamente esto es menos problemático ya que el estimador OLS tiene una distribución normal limitante bajo condiciones de regularidad leves.

¿Qué sucede si uno o más predictores no están distribuidos normalmente, no se ven bien en el gráfico Normal-QQ o si los datos no pasan la prueba de Shapiro-Wilk?

Por lo que sé, los predictores se consideran fijos o la regresión está condicionada a ellos. Esto limita el efecto de la no normalidad.

¿Qué significa el incumplimiento de la normalidad para un modelo que se ajusta bien según el valor de R-cuadrado? ¿Se vuelve menos fiable o completamente inútil?

El R-cuadrado es la proporción de la varianza explicada por el modelo. No requiere el supuesto de normalidad y es una medida de la bondad del ajuste a pesar de todo. Sin embargo, si quiere utilizarlo para una prueba F parcial, eso es otra historia.

¿Hasta qué punto es aceptable la desviación, o es aceptable en absoluto?

Te refieres a la desviación de la normalidad, ¿no? Realmente depende de tus propósitos porque, como he dicho, la inferencia se vuelve difícil en ausencia de normalidad, pero no es imposible (¡bootstrap!).

Al aplicar transformaciones a los datos para cumplir los criterios de normalidad, ¿el modelo mejora si los datos son más normales (mayor valor P en la prueba de Shapiro-Wilk, mejor aspecto en el gráfico Q-Q normal), o es inútil (igual de bueno o malo en comparación con el original) hasta que los datos pasan la prueba de normalidad?

En resumen, si tienes todos los supuestos de Gauss-Markov más normalidad entonces el estimador OLS es el mejor insesgado (BUE), es decir, el más eficiente en todo clases de estimadores - se alcanza el límite inferior de Cramer-Rao. Esto es deseable, por supuesto, pero no es el fin del mundo si no ocurre. Las observaciones anteriores son válidas.

En cuanto a las transformaciones, hay que tener en cuenta que, aunque la distribución de la respuesta puede acercarse a la normalidad, la interpretación puede no ser sencilla después.

Estas son sólo algunas respuestas breves a sus preguntas. Parece que le preocupan especialmente las implicaciones de la no normalidad. En general, diría que no es tan catastrófico como se ha hecho creer a la gente y que hay soluciones. Las dos referencias que he incluido son un buen punto de partida para seguir leyendo, la primera de ellas de carácter teórico.

Referencias :

Hayashi, Fumio: "Econometría", Princeton University Press, 2000

Kutner, Michael H., et al. "Applied linear statistical models", McGraw-Hill Irwin, 2005.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X