Estoy un poco confundido sobre cuáles son las suposiciones de la regresión lineal.
Hasta ahora verifiqué si:
- todas las variables explicativas estaban correlacionadas linealmente con la variable de respuesta. (Este era el caso)
- había multicolinealidad entre las variables explicativas. (hubo poca multicolinealidad).
- las distancias de Cook de los puntos de datos de mi modelo están por debajo de 1 (esto es así, todas las distancias están por debajo de 0.4, por lo que no hay puntos de influencia).
- los residuos están distribuidos normalmente. (esto puede no ser el caso)
Pero luego leí lo siguiente:
las violaciones de la normalidad a menudo surgen porque (a) las distribuciones de las variables dependientes y/o independientes son significativamente no normales, y/o (b) se viola la suposición de linealidad.
Pregunta 1 Esto suena como si las variables independientes y dependientes necesitaran estar distribuidas normalmente, pero hasta donde sé, este no es el caso. Mi variable dependiente, así como una de mis variables independientes, no están distribuidas normalmente. ¿Deberían estarlo?
Pregunta 2 Mi gráfico QQnormal de los residuos se ve así:
Eso difiere ligeramente de una distribución normal y la prueba de shapiro.test
también rechaza la hipótesis nula de que los residuos provienen de una distribución normal:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Los residuos vs los valores ajustados se ven así:
¿Qué puedo hacer si mis residuos no se distribuyen normalmente? ¿Significa que el modelo lineal es completamente inútil?
3 votos
Tu gráfico de residuos versus ajustados sugiere que tu variable dependiente tiene un límite inferior. Esto podría estar afectando los patrones que observas. Esto te podría dar una indicación de modelos alternativos que podrías considerar.