21 votos

¿Qué significan los residuos normales y qué me dicen acerca de mis datos?

Pregunta bastante básica:

¿Qué significa una distribución normal de residuos de una regresión lineal? ¿En términos de cómo se refleja esto en mis datos originales de la regresión?

Estoy totalmente confundido, gracias chicos

11voto

pkaeding Puntos 12935

La regresión lineal de hecho modela los valores esperados condicionales de tu resultado. Eso significa: si conocieras los valores verdaderos de los parámetros de regresión (digamos $\beta_0$ y $\beta_1$), dado un valor de tu predictor X, al llenarlo en la ecuación $$ E[Y|X] = \beta_0 + \beta_1 X $$ te permitirá calcular el valor esperado para $Y$ sobre todas las observaciones (posibles) que tengan este valor dado para $X.

Sin embargo: en realidad no esperas que ningún valor único de $Y para ese valor dado de X sea exactamente igual a la media (condicional). No porque tu modelo esté mal, sino porque hay algunos efectos que no has tenido en cuenta (por ejemplo, error de medición). Entonces, estos valores de $Y para un valor dado de $X fluctuarán alrededor del valor medio (es decir, geométricamente: alrededor del punto de la línea de regresión para ese $X).

La suposición de normalidad, ahora, dice que la diferencia entre los $Y y sus $E[Y|X] correspondientes sigue una distribución normal con media cero. Esto significa que, si tienes un valor de $X, entonces puedes muestrear un valor de $Y calculando primero $\beta_0 + \beta_1 X$ (es decir, nuevamente $E[Y|X], el punto en la línea de regresión), a continuación muestreando $\epsilon de esa distribución normal y sumándolos: $$ Y'=E[Y|X] + \epsilon $$

En resumen: esta distribución normal representa la variabilidad en tu resultado además de la variabilidad explicada por el modelo.

Nota: en la mayoría de los conjuntos de datos, no tienes múltiples valores de $Y para cualquier valor dado de $X (a menos que tu conjunto de predictores sea categórico), pero esta normalidad se aplica a toda la población, no solo a las observaciones en tu conjunto de datos.

Nota: He hecho el razonamiento para la regresión lineal con un predictor, pero lo mismo aplica para más: solo reemplaza "línea" con "hiperplano" en lo anterior.

0 votos

¡Esta es una excelente explicación! ¿Una pregunta, sin embargo: ¿que e esté normalmente distribuido significaría que asumes que los valores más probables para e están entre -1 y +1 (después de ser estandarizados)? Entonces, ¿básicamente usas una distribución normal en lugar de, digamos, una distribución de Poisson, porque la distribución normal modela mejor cómo se comportan estos valores en la vida real?

0 votos

Soy consciente de que la regresión lineal se puede derivar de forma equivalente de varias maneras, una de las cuales es esta motivación del tipo de estimación MLE. Pero ¿cómo llegarías a una razón similar para la normalidad de los residuos, partiendo de la motivación de intentar minimizar la suma de errores al cuadrado?

1 votos

Esto confunde implícitamente que los errores $\epsilon$ son los residuales en una regresión, pero no lo son. Esto es un problema porque muchas personas no logran distinguir los conceptos.

2voto

Runcible Puntos 539

La normalidad de los residuos es una suposición al ejecutar un modelo lineal. Por lo tanto, si tus residuos son normales, significa que tu suposición es válida y la inferencia del modelo (intervalos de confianza, predicciones del modelo) también debería ser válida. ¡Es así de simple!

3 votos

La suposición de normalidad se refiere al error no observable (de ahí la necesidad de una suposición), no a los residuos observables.

2 votos

Sí, pero utilizas los residuos para probar tu suposición sobre el error no observable.

1 votos

No estoy de acuerdo en que los residuos normales garanticen un modelo de regresión válido. Supongamos que tienes un modelo gaussiano circular con un error X e Y que son iguales. Entonces, el intervalo de confianza de la línea de regresión es $-\infty \text { a } \infty$. Ese es apenas el único contraejemplo, hay muchos más.

1voto

Abs Puntos 145

Podría significar mucho o podría no significar nada. Si ajustas un modelo para obtener el R-Cuadrado más alto, podría significar que has sido tonto. Si ajustas un modelo para ser parsimonioso en que las variables son necesarias y cuidas de identificar los valores atípicos, entonces has hecho un buen trabajo. Echa un vistazo aquí para obtener más información al respecto http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175

-2voto

Salwa Puntos 1

En algunos casos, la suposición de que los datos son aproximadamente lineales nos permite usar OLS para minimizar la cantidad de observaciones en los datos que están lejos de una línea recta.

Luego, el residual es la diferencia entre el valor real y el valor ajustado, y esperamos que esta diferencia sea aproximadamente cero.

Pero en la mayoría de los casos de la vida real, los datos apropiados no son lineales, por lo que podemos usar algunos métodos de tratamiento o algunos métodos de estimación como herramientas robustas.

0 votos

Esta respuesta realmente no aborda la pregunta, presumiblemente por eso fue votado negativamente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X