45 votos

Supuestos de modelos lineales y qué hacer si los residuos no siguen una distribución normal

Estoy un poco confundido sobre cuáles son las suposiciones de la regresión lineal.

Hasta ahora verifiqué si:

  • todas las variables explicativas estaban correlacionadas linealmente con la variable de respuesta. (Este era el caso)
  • había multicolinealidad entre las variables explicativas. (hubo poca multicolinealidad).
  • las distancias de Cook de los puntos de datos de mi modelo están por debajo de 1 (esto es así, todas las distancias están por debajo de 0.4, por lo que no hay puntos de influencia).
  • los residuos están distribuidos normalmente. (esto puede no ser el caso)

Pero luego leí lo siguiente:

las violaciones de la normalidad a menudo surgen porque (a) las distribuciones de las variables dependientes y/o independientes son significativamente no normales, y/o (b) se viola la suposición de linealidad.

Pregunta 1 Esto suena como si las variables independientes y dependientes necesitaran estar distribuidas normalmente, pero hasta donde sé, este no es el caso. Mi variable dependiente, así como una de mis variables independientes, no están distribuidas normalmente. ¿Deberían estarlo?

Pregunta 2 Mi gráfico QQnormal de los residuos se ve así:

normality check of residuals

Eso difiere ligeramente de una distribución normal y la prueba de shapiro.test también rechaza la hipótesis nula de que los residuos provienen de una distribución normal:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Los residuos vs los valores ajustados se ven así:

residuals vs fitted

¿Qué puedo hacer si mis residuos no se distribuyen normalmente? ¿Significa que el modelo lineal es completamente inútil?

3 votos

Tu gráfico de residuos versus ajustados sugiere que tu variable dependiente tiene un límite inferior. Esto podría estar afectando los patrones que observas. Esto te podría dar una indicación de modelos alternativos que podrías considerar.

52voto

GenericTypeTea Puntos 27689

En primer lugar, te recomendaría conseguir una copia de este artículo clásico y accesible y leerlo: Anscombe, F. J. (1973) Gráficos en análisis estadístico. The American Statistician. 27:17–21.

Respecto a tus preguntas:

Respuesta 1: Ni la variable dependiente ni la independiente necesitan estar distribuidas normalmente. De hecho, pueden tener todo tipo de distribuciones extrañas. La suposición de normalidad se aplica a la distribución de los errores ($Y_{i} - \widehat{Y}_{i}$).

Respuesta 2: En realidad estás preguntando sobre dos suposiciones separadas de la regresión por mínimos cuadrados ordinarios (OLS):

  1. Una es la suposición de linealidad. Esto significa que la tendencia en $\overline{Y}$ a lo largo de $X$ se expresa mediante una línea recta (¿Verdad? Volver un poco al álgebra: $y = a +bx$, donde $a$ es la intersección con el eje $y$, y $b$ es la pendiente de la línea). Una violación de esta suposición simplemente significa que la relación no está bien descrita por una línea recta (por ej., $\overline{Y}$ es una función sinusoidal de $X$, o una función cuadrática, o incluso una línea recta que cambia de pendiente en algún punto). Mi enfoque de dos pasos preferido para abordar la no linealidad es (1) realizar algún tipo de regresión suavizante no paramétrica para sugerir relaciones funcionales específicas no lineales entre $Y$ y $X$ (por ej., usando LOWESS, o GAMs, etc.), y (2) especificar una relación funcional usando ya sea una regresión múltiple que incluya no linealidades en $X$ (por ej., $Y \sim X + X^{2}$), o un modelo de regresión de mínimos cuadrados no lineales que incluya no linearidades en los parámetros de $X$ (por ej., $Y \sim X + \max{(X-\theta,0)}$, donde $\theta$ representa el punto donde la línea de regresión de $\overline{Y}$ en $X$ cambia de pendiente).

  2. Otra es la suposición de residuos distribuidos normalmente. A veces se puede salir de forma válida con residuos no normales en un contexto de OLS; ver por ejemplo, Lumley T, Emerson S. (2002) La importancia de la suposición de normalidad en grandes conjuntos de datos de salud pública. Anual Review of Public Health. 23:151–69. A veces, no se puede (nuevamente, ver el artículo de Anscombe).

Sin embargo, te recomendaría pensar en las suposiciones en OLS no tanto como propiedades deseadas de tus datos, sino más bien como puntos interesantes de partida para describir la naturaleza. Después de todo, la mayoría de lo que nos importa en el mundo es más interesante que la intersección con el eje $y$ y la pendiente. Violando creativamente las suposiciones de OLS (con los métodos apropiados) nos permite plantear y responder preguntas más interesantes.

2 votos

¡Gracias! En las diapositivas de algún curso de estadísticas, se menciona que si las suposiciones fallan, puedes intentar transformar Y o transformar las variables explicativas. Cuando transformo Y haciendo, por ejemplo, lm(Y^0.3~+X1+X2+...), entonces mis residuos sí se distribuyen normalmente. ¿Es esto algo válido para hacer?

1 votos

@Stefan ¡Sí! Transformar una respuesta suele ser algo bueno que hacer, log, y las transformaciones de potencia son comunes y simples.

1 votos

@Stefan Tal vez, tal vez no. Si transformas tu resultado, entonces tus inferencias basadas en las relaciones transformadas no necesariamente se aplican a las transformaciones inversas después de haber realizado tu análisis; esto se debe a que $\text{Var}(f(x) \ne f(\text{Var}(x))$. Así que si analizas $\ln Y =\beta_{0} + \beta_{X}X + \varepsilon$, encontrar un $\beta_{X}$ significativo no necesariamente se traduce en un $e^{\beta_{X}}$ significativo, ni corresponde necesariamente a $e^{\text{CI}\beta_{X}}$.

16voto

AdamSane Puntos 1825

Tus primeros problemas son

  • a pesar de tus garantías, el gráfico residual muestra que la respuesta condicional esperada no es lineal en los valores ajustados; el modelo para la media está incorrecto.

  • no tienes varianza constante. El modelo para la varianza está incorrecto.

ni siquiera puedes evaluar la normalidad con esos problemas ahí.

0 votos

Por favor, amplía en cómo has concluido sobre la linealidad al observar los gráficos. Entiendo que la suposición de homocedasticidad no se cumple aquí.

1 votos

El promedio condicional de los residuos está cambiando a medida que cambia $\hat{y}$; hay una clara tendencia a la baja y luego un salto distintivo hacia arriba a medida que nos movemos a la derecha. Si no puedes verlo, corta el gráfico en, digamos, 4 secciones. Pondría el punto medio del rango de valores predichos alrededor de $\hat{y}=30$, así que córtalo allí, y luego corta cada mitad a la mitad, digamos en $0$ y $60$. Ahora, mirando los puntos dentro de cada una de esas secciones ($<0$, $0-30$, $30-60$, $>60$), dibuja tu mejor estimación de una línea recta. Para mí, las dos intermedias son casi coincidentes, así que combiné sus líneas, dando algo como esto

0 votos

En la mitad central, casi todos los residuos son negativos, en las partes exteriores casi todos los residuos son positivos. Estos no son cómo se ven los residuos aleatorios.

6voto

Ray Puntos 16

Además de la respuesta anterior, me gustaría agregar algunos puntos para mejorar tu modelo:

  1. A veces, la no normalidad de los residuos indica la presencia de valores atípicos. Si este es el caso, maneja primero los valores atípicos.

  2. Tal vez usar algunas transformaciones resuelva el propósito, sin embargo, tiene consecuencias. Como los cambios en la interpretación de los coeficientes si transformamos variables.

  3. Además, para lidiar con la multicolinealidad, puedes consultar https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution

5voto

AbsoluteƵERØ Puntos 113

La exploración más accesible del impacto de errores no normales que he encontrado es este artículo de Schmidt and Finan.

Aquí tienes el resumen de los resultados en el resumen:

Aunque las transformaciones de resultados sesgan las estimaciones puntuales, las violaciones de la suposición de normalidad en los análisis de regresión lineal no lo hacen. La suposición de normalidad es necesaria para estimar de manera imparcial los errores estándar, y por lo tanto los intervalos de confianza y los valores P. Sin embargo, en muestras grandes (por ejemplo, donde el número de observaciones por variable es >10) las violaciones de esta suposición de normalidad a menudo no impactan notablemente los resultados. Contrario a esto, las suposiciones sobre el modelo paramétrico, la ausencia de observaciones extremas, la homocedasticidad y la independencia de los errores, siguen siendo influyentes incluso en configuraciones de muestras grandes.

4voto

Julien D. Puntos 116

No diría que el modelo lineal es completamente inútil. Sin embargo, esto significa que tu modelo no explica correctamente o totalmente tus datos. Hay una parte donde tienes que decidir si el modelo es "suficientemente bueno" o no.

Para tu primera pregunta, no creo que un modelo de regresión lineal asuma que tus variables dependientes e independientes tienen que ser normales. Sin embargo, hay un supuesto sobre la normalidad de los residuos.

Para tu segunda pregunta, hay dos cosas diferentes que podrías considerar:

  1. Verificar diferentes tipos de modelos. Otro modelo podría ser mejor para explicar tus datos (por ejemplo, regresión no lineal, etc). Aún tendrías que verificar que los supuestos de este "nuevo modelo" no se estén violando.
  2. Tus datos pueden no contener suficientes covariables (variables dependientes) para explicar la respuesta (resultado). En este caso, no puedes hacer nada más. A veces, podemos aceptar verificar si los residuos siguen distribuciones diferentes (por ejemplo, distribución t) pero parece que no es tu caso.

Además de tu pregunta, veo que tu Gráfico QQ no está "normalizado". Por lo general, es más fácil ver el gráfico cuando tus residuos están estandarizados, ver stdres.

stdres(objeto_lm)

Espero que te ayude, tal vez alguien más lo explique mejor que yo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X