Es importante ser preciso en estas situaciones y distinguir entre el modelo de datos y los datos en sí. Una forma de pensar en la regresión lineal es hipotetizar la siguiente relación sobre el proceso estadístico desconocido que generó los datos que tenemos
$$ E[Y \mid X] = \beta_0 + X \beta $$
Beta es una constante desconocida en este momento, por lo que sólo estamos estableciendo una hipótesis sobre lo que creemos que el forma de la relación es así. Entonces, dados los datos, utilizamos algún método para determinar qué $\beta$ debe ser tal que la relación hipotetizada sea probable que genere los datos que tenemos (la máxima probabilidad es muy popular).
Incluso sin saber $\beta$ podemos manipular la relación para aprender algunas cosas sobre las consecuencias de nuestras suposiciones
$$ E[Y] = E[E[Y \mid X]] = \beta_0 + \beta E[X] = \beta_0 + \beta E[X] $$
Ahora, la distribución de $X$ es generalmente no parte de nuestros supuestos estructurales en la regresión, así que, en general, esto es lo más lejos que podemos llegar.
A menudo, centraremos nuestros datos para $X$ que impone la restricción $E[X] = 0$ en nuestro modelo. En este caso, podemos derivar
$$ E[Y] = \beta_0 $$
Por eso, por ejemplo este libro recomienda centrar los predictores (en algunas situaciones) para que el intercepto del modelo sea interpretable.
Ahora, mi pregunta es ¿cómo se relaciona esto con la media muestral de y?
Si se ajusta el modelo por mínimos cuadrados, y se ha centrado el predictor $x$ entonces el intercepto del modelo es la media de la muestra.
Geométricamente, la línea de mínimos cuadrados debe pasar por el centro de masa de los datos $(\bar x, \bar y)$ . Cuando haya centrado $x$ , $\bar x = 0$ , por lo que la línea pasa a través de $(0, \bar y)$ . Si se introducen estos valores en la ecuación del modelo, se obtiene $\beta_0 = \bar y$ .
Algebraicamente, la ecuación de mínimos cuadrados es $(X^t X) \vec{\beta} = X^t y$ . Si piensas en la matriz $X$ la primera columna es todo unos (la columna de intercepción), y como $x$ está centrada, esta columna de intercepción es ortogonal a la columna de datos. Esto significa que la primera fila de $X^t X$ parece $(N, 0)$ (donde $N$ es el número de puntos de datos). Entonces la primera componente del lado izquierdo es $N\beta_0$ . En el lado derecho, el primer componente es $\sum_i y_i$ . Igualándolos, se obtiene el resultado $\beta_0 = \bar y$ .
También es cierto que la media de los predicciones es igual a $\bar y$ . Como se trata de las medias condicionales estimadas (por suposición), se obtiene una relación como la que se busca. Para verlo, basta con observar que las predicciones son $X \vec{\beta}$ y agrupar la ecuación de mínimos cuadrados como
$$ X^t (X \vec{\beta}) = X^t y $$
Ahora usa un argumento similar al que hice arriba.