5 votos

¿Cómo pueden los residuos ser iid y sumar cero al mismo tiempo?

La fórmula de la regresión lineal es la siguiente

$y_i= \beta_0 + \beta_1 x_i + \epsilon_i$ , donde $e_i \sim \mathcal{N}(0, \sigma^2)$

Por favor, corríjanme si lo anterior es incorrecto.

Sin embargo, por varios posts y notas, también he leído que los residuos de una regresión lineal (con un término de intercepción) siempre suman cero. Por lo tanto, por definición los residuos NO son iid. ¿Cómo puede $e_i \sim \mathcal{N}(0, \sigma^2)$ y sumar a cero al mismo tiempo?

Sé que estoy haciendo una afirmación incorrecta en alguna parte, pero no estoy seguro de dónde. Gracias.

6voto

Pohoua Puntos 270

Creo que se confunden los residuos y los errores. Los residuos, a menudo señalados $\hat{\varepsilon}_i$ o $e_i$ son $$\hat{\varepsilon}_i = y_i - \hat{y}_i = y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i$$ mientras que los errores son $$\varepsilon_i = y_i - {\beta}_0 - {\beta}_1 x_i$$ La pequeña (¡pero crítica!) diferencia es el sombrero sobre las betas. Por eso los residuos se suelen señalar con un sombrero: son estimaciones de los errores. Los residuos no son independientes, ya que suman 0, pero los errores sí lo son (por suposición del modelo).

1 votos

¿Puedo hacer algunas preguntas de seguimiento? Me cuesta entender el concepto de "estimación" de los parámetros. ¿Puedo proponer una especie de "experimento"? Digamos que la verdadera línea de regresión es $Y = 3 + 5X$ y digamos que generamos uniformemente un número arbitrariamente grande de valores X entre -10 y 10. Tomamos nuestro $x_i$ Utilizaremos nuestros verdaderos parámetros de regresión, pero añadiremos un término de error aleatorio normalmente distribuido $e_i$ . (a) ¿Se consideraría todavía un modelo de regresión muestral en lugar de un modelo de regresión poblacional?

1 votos

(b) Si hiciéramos una regresión lineal sobre esto, no obtendríamos exactamente 3 y 5 respectivamente para las betas, pero ¿cómo se relacionarían con 3 y 5? ¿se distribuirían normalmente alrededor de 3 y 5?

0 votos

Sus estimaciones serían "cercanas" a 3 y 5, y si mantuviera su $x_i$ s fijas, pero resimulando los errores varias veces para obtener varias estimaciones, se terminaría con una distribución normal, centrada en los parámetros verdaderos. En cuanto a tu primer comentario, no conozco la diferencia entre los modelos de "regresión muestral" y de "regresión poblacional" (de hecho, nunca he oído estos términos).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X