46 votos

Supuestos de modelos lineales y qué hacer si los residuos no siguen una distribución normal

Estoy un poco confundido sobre cuáles son las suposiciones de la regresión lineal.

Hasta ahora verifiqué si:

  • todas las variables explicativas estaban correlacionadas linealmente con la variable de respuesta. (Este era el caso)
  • había multicolinealidad entre las variables explicativas. (hubo poca multicolinealidad).
  • las distancias de Cook de los puntos de datos de mi modelo están por debajo de 1 (esto es así, todas las distancias están por debajo de 0.4, por lo que no hay puntos de influencia).
  • los residuos están distribuidos normalmente. (esto puede no ser el caso)

Pero luego leí lo siguiente:

las violaciones de la normalidad a menudo surgen porque (a) las distribuciones de las variables dependientes y/o independientes son significativamente no normales, y/o (b) se viola la suposición de linealidad.

Pregunta 1 Esto suena como si las variables independientes y dependientes necesitaran estar distribuidas normalmente, pero hasta donde sé, este no es el caso. Mi variable dependiente, así como una de mis variables independientes, no están distribuidas normalmente. ¿Deberían estarlo?

Pregunta 2 Mi gráfico QQnormal de los residuos se ve así:

normality check of residuals

Eso difiere ligeramente de una distribución normal y la prueba de shapiro.test también rechaza la hipótesis nula de que los residuos provienen de una distribución normal:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Los residuos vs los valores ajustados se ven así:

residuals vs fitted

¿Qué puedo hacer si mis residuos no se distribuyen normalmente? ¿Significa que el modelo lineal es completamente inútil?

3 votos

Tu gráfico de residuos versus ajustados sugiere que tu variable dependiente tiene un límite inferior. Esto podría estar afectando los patrones que observas. Esto te podría dar una indicación de modelos alternativos que podrías considerar.

-1voto

Shreyas Puntos 31

Para tu segunda pregunta,

Algo que me sucedió en la práctica fue que estaba sobreajustando mi respuesta con muchas variables independientes. En el modelo sobreajustado tenía residuos no normales. A pesar de ello, los resultados establecían que no había evidencia suficiente para descartar la posibilidad de que algunos coeficientes fueran cero (con valores p mayores a 0.2). Así que en un segundo modelo, descartando variables siguiendo un procedimiento de selección hacia atrás, obtuve residuos normales validados tanto gráficamente con un qqplot como mediante pruebas de hipótesis con un test de Shapiro-Wilk. Comprueba si este podría ser tu caso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X