Pregunta bastante básica:
¿Qué significa una distribución normal de residuos de una regresión lineal? ¿En términos de cómo se refleja esto en mis datos originales de la regresión?
Estoy totalmente confundido, gracias chicos
Pregunta bastante básica:
¿Qué significa una distribución normal de residuos de una regresión lineal? ¿En términos de cómo se refleja esto en mis datos originales de la regresión?
Estoy totalmente confundido, gracias chicos
La regresión lineal de hecho modela los valores esperados condicionales de tu resultado. Eso significa: si conocieras los valores verdaderos de los parámetros de regresión (digamos $\beta_0$ y $\beta_1$), dado un valor de tu predictor X, al llenarlo en la ecuación $$ E[Y|X] = \beta_0 + \beta_1 X $$ te permitirá calcular el valor esperado para $Y$ sobre todas las observaciones (posibles) que tengan este valor dado para $X.
Sin embargo: en realidad no esperas que ningún valor único de $Y para ese valor dado de X sea exactamente igual a la media (condicional). No porque tu modelo esté mal, sino porque hay algunos efectos que no has tenido en cuenta (por ejemplo, error de medición). Entonces, estos valores de $Y para un valor dado de $X fluctuarán alrededor del valor medio (es decir, geométricamente: alrededor del punto de la línea de regresión para ese $X).
La suposición de normalidad, ahora, dice que la diferencia entre los $Y y sus $E[Y|X] correspondientes sigue una distribución normal con media cero. Esto significa que, si tienes un valor de $X, entonces puedes muestrear un valor de $Y calculando primero $\beta_0 + \beta_1 X$ (es decir, nuevamente $E[Y|X], el punto en la línea de regresión), a continuación muestreando $\epsilon de esa distribución normal y sumándolos: $$ Y'=E[Y|X] + \epsilon $$
En resumen: esta distribución normal representa la variabilidad en tu resultado además de la variabilidad explicada por el modelo.
Nota: en la mayoría de los conjuntos de datos, no tienes múltiples valores de $Y para cualquier valor dado de $X (a menos que tu conjunto de predictores sea categórico), pero esta normalidad se aplica a toda la población, no solo a las observaciones en tu conjunto de datos.
Nota: He hecho el razonamiento para la regresión lineal con un predictor, pero lo mismo aplica para más: solo reemplaza "línea" con "hiperplano" en lo anterior.
¡Esta es una excelente explicación! ¿Una pregunta, sin embargo: ¿que e esté normalmente distribuido significaría que asumes que los valores más probables para e están entre -1 y +1 (después de ser estandarizados)? Entonces, ¿básicamente usas una distribución normal en lugar de, digamos, una distribución de Poisson, porque la distribución normal modela mejor cómo se comportan estos valores en la vida real?
Soy consciente de que la regresión lineal se puede derivar de forma equivalente de varias maneras, una de las cuales es esta motivación del tipo de estimación MLE. Pero ¿cómo llegarías a una razón similar para la normalidad de los residuos, partiendo de la motivación de intentar minimizar la suma de errores al cuadrado?
Esto confunde implícitamente que los errores $\epsilon$ son los residuales en una regresión, pero no lo son. Esto es un problema porque muchas personas no logran distinguir los conceptos.
La suposición de normalidad se refiere al error no observable (de ahí la necesidad de una suposición), no a los residuos observables.
No estoy de acuerdo en que los residuos normales garanticen un modelo de regresión válido. Supongamos que tienes un modelo gaussiano circular con un error X e Y que son iguales. Entonces, el intervalo de confianza de la línea de regresión es $-\infty \text { a } \infty$. Ese es apenas el único contraejemplo, hay muchos más.
Podría significar mucho o podría no significar nada. Si ajustas un modelo para obtener el R-Cuadrado más alto, podría significar que has sido tonto. Si ajustas un modelo para ser parsimonioso en que las variables son necesarias y cuidas de identificar los valores atípicos, entonces has hecho un buen trabajo. Echa un vistazo aquí para obtener más información al respecto http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
En algunos casos, la suposición de que los datos son aproximadamente lineales nos permite usar OLS para minimizar la cantidad de observaciones en los datos que están lejos de una línea recta.
Luego, el residual es la diferencia entre el valor real y el valor ajustado, y esperamos que esta diferencia sea aproximadamente cero.
Pero en la mayoría de los casos de la vida real, los datos apropiados no son lineales, por lo que podemos usar algunos métodos de tratamiento o algunos métodos de estimación como herramientas robustas.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.