Estoy tomando un curso sobre modelos de regresión y una de las propiedades para la regresión lineal es que los residuos siempre suma a cero cuando una intercepción está incluida.
¿Puede alguien dar una buena explicación de por qué este es el caso?
Estoy tomando un curso sobre modelos de regresión y una de las propiedades para la regresión lineal es que los residuos siempre suma a cero cuando una intercepción está incluida.
¿Puede alguien dar una buena explicación de por qué este es el caso?
Esto se desprende directamente de la normal de ecuaciones, es decir, las ecuaciones que el estimador OLS resuelve,
$$\mathbf{X}^{\prime} \underbrace{\left( \mathbf{y} - \mathbf{X} \mathbf{b} \right)}_{\mathbf{e}} = 0 $$
El vector que está dentro del paréntesis es, por supuesto, el vector residual o la proyección de la $\mathbf{y}$ sobre el complemento ortogonal del espacio columna de a $X$, si te gusta el álgebra lineal. Ahora incluye un vector de unos de la $\mathbf{X}$ matriz, que por cierto no tiene que ser en la primera columna como convencionalmente se hace, conduce a
$$\mathbf{1}^{\prime} \mathbf{e} = 0 \implies \sum_{i=1}^n e_i = 0$$
En las dos variables del problema que esto es aún más sencilla de ver, como la minimización de la suma de los cuadrados de los residuos nos lleva a
$$\sum_{i=1}^n \left(y_i - a - b x_i \right) = 0$$
cuando tomamos la derivada con respecto a la intersección. A partir de este, a continuación, procedemos a obtener el estimador familiar
$$a = \bar{y} - b \bar{x}$$
donde de nuevo vemos que la construcción de nuestros estimadores impone esta condición.
En caso de que usted está buscando un lugar intuitiv explicación.
En cierto sentido, el modelo de regresión lineal no es sino una forma elegante de decir. Para encontrar la media aritmética $\bar{x}$ sobre algunos de los valores de $x_1, x_2, \dots, x_n$, nos encontramos con un valor que es una medida de centralidad en el sentido de que la suma de todas las desviaciones (donde cada desviación se define como $u_i = x_i - \bar{x}$) a la derecha del valor de la media es igual a la suma de todas las desviaciones a la izquierda de la media. No hay ninguna razón intrínseca por qué de esta medida es buena, y no digamos la mejor manera de describir la media de una muestra, pero sin duda es intuitiv y practial. El punto importante es, que por la definición de la media aritmética de esta manera, se deduce que una vez que hemos construido la media aritmética, todas las desviaciones de la que significa que deben sumar a cero por definición!
En una regresión lineal, esto no es diferente. Nosotros adaptamos la línea de tal forma que la suma de todas las diferencias entre los valores ajustados (que están sobre la línea de regresión) y los valores reales que están por encima de la línea es exactamente igual a la suma de todas las diferencias entre la línea de regresión y todos los valores por debajo de la línea. De nuevo, no hay ninguna razón intrínseca, ¿por qué este es el mejor camino para la construcción de un ajuste, pero es sencilla e intuitiva, atractiva. Al igual que con la media aritmética: por la construcción de nuestros valores ajustados de esta manera, se deduce, por construcción, que todas las desviaciones de la línea que debe de suma cero de lo contrario, esto sólo wouldnt ser un OLS regession.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.