Consideremos un modelo de regresión lineal, es decir $Y = \beta_0 + \beta_1 x_i + \epsilon_i$ , donde $\epsilon_i$ satisface los supuestos clásicos. El método de estimación de los coeficientes $(\beta_0 , \beta)$ es el método de los mínimos cuadrados. ¿Cuál sería una explicación intuitiva de por qué la suma de los residuos es $0$ ? Conozco la forma de mostrarlo algebraicamente, sin embargo no consigo entender el concepto y la intuición que hay detrás. ¿Alguna explicación?
Respuestas
¿Demasiados anuncios?Un número $x_i$ es igual a la media de todos los datos $\bar x$ más su residuo $r_i$ :
$x_i=\bar x + r_i$
Si la suma de todos los residuos no era $R=0$ entonces la media de los datos se contradice:
$\bar x=\displaystyle \sum x_i /n= \sum (\bar x +r_i)/n = \bar x +n \sum r_i = \bar x +nR \to \bar x = \bar x + R $
$\to R= \sum r_i=0$ .
Concepto : Esto significa que la suma de la distancia entre los valores y su media es cero porque de lo contrario, la media es un parámetro no central y como parámetro central se contradice.
La propiedad intrínseca de la media es tener tendencia central y esto significa que es igual a que todos los datos estén centrados.
Los residuos deben sumar cero. Obsérvese que esto es lo mismo que si los residuos tuvieran una media cero. Si los residuos no tienen media cero, en efecto el error medio no es cero en la muestra. Por lo tanto, una forma fácil de obtener una mejor estimación del parámetro deseado es restar este error medio de nuestra estimación.
Si lo entiendes algebraicamente, todo lo demás son meras justificaciones post-hoc. Como tal, voy a recordar la razón de esta característica. Una vez que has ajustado un modelo con un término de intercepción, $\beta_0$ tomando una derivada de $S(\beta)$ por ejemplo $\beta_0$ produce $$ \frac{\partial}{\partial \beta_0 } S(\beta) = -2\sum (y_i - \hat{\beta}_0 - \hat{\beta}_1) = -2\sum e_i =0. $$ En concreto, esta característica es sólo una consecuencia de ajustar un modelo con un término de intercepción, $\beta_0$ . Para un modelo sin intercepción, es decir, $y_i = \beta_1 x_i + \epsilon_i$ los residuos (en general) no sumarán $0$ . Sin embargo, uno de los supuestos de un modelo lineal (w \0 una intercepción) es que $\mathbb{E}[\epsilon_i|X] = 0$ Es una buena característica a tener en cuenta $\bar{e}_n = 0$ ya que la media de los residuos es el estimador de $\mathbb{E}[\epsilon_i|X]$ que suponemos igual a $0$ . Básicamente, se puede ver un modelo con intercepción como un modelo sin intercepción con un ruido desplazado, es decir $$ y_i = \beta_1x_i + \epsilon_i, $$ donde $\mathbb{E}[\epsilon_i |X] = \beta_0 \neq 0$ y $\operatorname{Var}(\epsilon_i|X_i) = \sigma^2$ . En este caso, si se descuida la estimación del valor esperado del término de ruido, el estimador de $\beta_1$ estará sesgada. Como tal, se puede ver el intercepto como una constante que asegura la suposición de que el valor esperado del ruido es cero, lo que se traduce en la suma de los residuos que es cero y una estimación $\beta_0$ como "pago" por este supuesto.