Sacado de mi blog. Esto es realmente un post en el corazón de la cuestión: derivar las ecuaciones normales.
Recordemos que el modelo lineal de regresión múltiple es la ecuación dada por
$$Y_i = \beta_0 + \sum_{j=1}^{p}X_{ij}\beta_{j} + \epsilon_i\text{, } i = 1, 2, \dots, N\tag{1}$$
donde $\epsilon_i$ es una variable aleatoria para cada una de las $i$. Esto se puede escribir en forma matricial como así.
\begin{equation*}
\begin{array}{c@{}c@{}c@{}c@{}c@{}c}
\begin{bmatrix}
Y_1 \\
Y_2 \\
\vdots \\
Y_N
\end{bmatrix} &{}={} &\begin{bmatrix}
1 & X_{11} & X_{12} & \cdots & X_{1p} \\
1 & X_{21} & X_{22} & \cdots & X_{2p} \\
\vdots & \vdots & \vdots & \vdots & \vdots \\
1 & X_{N1} & X_{N2} & \cdots & X_{Np}
\end{bmatrix}
&\begin{bmatrix}
\beta_0 \\
\beta_1 \\
\vdots \\
\beta_p
\end{bmatrix} &{}+{} &\begin{bmatrix}
\epsilon_1 \\
\epsilon_2 \\
\vdots \\
\epsilon_N
\end{bmatrix} \\
\\[0.1 ex]
\mathbf{y} &{}={} &\mathbf{X} &\boldsymbol{\beta} &{}+{} &\boldsymbol{\epsilon}\text{.}
\end{array}
\end{ecuación*}
Desde $\boldsymbol{\epsilon}$ es un vector de variables aleatorias, tenga en cuenta que nosotros llamamos $\boldsymbol{\epsilon}$ un vector aleatorio. Nuestro objetivo es obtener una estimación de $\boldsymbol{\beta}$. Una forma de hacerlo sería mediante la minimización de la suma de cuadrados residual, o $\text{RSS}$, definido por
$$\text{RSS}(\boldsymbol{\beta}) = \sum_{i=1}^{N}\left(y_i - \sum_{j=0}^{p}x_{ij}\beta_{j}\right)^2$$
donde hemos definido $x_{i0} = 1$ todos los $i$. (Estos son sólo las entradas de la primera columna de la matriz $\mathbf{X}$.) Aviso aquí estamos usando letras minúsculas, para indicar que estamos trabajando con los valores observados a partir de los datos. Para minimizar esto, vamos a encontrar los valores críticos para los componentes de $\boldsymbol{\beta}$. Para $k = 0, 1, \dots, p$, aviso que
$$\dfrac{\partial\text{RSS}}{\partial\beta_k}(\boldsymbol{\beta}) = \sum_{i=1}^{N}2\left(y_i - \sum_{j=0}^{p}x_{ij}\beta_{j}\right)(-x_{ik}) = -2\sum_{i=1}^{N}\left(y_ix_{ik} - \sum_{j=0}^{p}x_{ij}x_{ik}\beta_{j}\right)\text{.}$$
La configuración de este igual a $0$, obtenemos lo que se conoce como las ecuaciones normales:
$$\sum_{i=1}^{N}y_ix_{ik} = \sum_{i=1}^{N}\sum_{j=0}^{p}x_{ij}x_{ik}\beta_{j}\text{.}\tag{2}$$
para $k = 0, 1, \dots, p$. Esto puede ser representado en notación matricial.
Para $k = 0, 1, \dots, p$,
$$\begin{align*}
\sum_{i=1}^{N}y_ix_{ik} &= \begin{bmatrix}
x_{1k} & x_{2k} & \cdots & x_{Nk}
\end{bmatrix}
\begin{bmatrix}
y_1 \\
y_2 \\
\vdots \\
y_{N}
\end{bmatrix} = \mathbf{c}_{k+1}^{T}\mathbf{y}
\end{align*}$$
donde $\mathbf{c}_\ell$ indica el $\ell$ésima columna de $\mathbf{X}$, $\ell = 1, \dots, p+1$. A continuación, podemos representar cada ecuación para $k = 0, 1, \dots, p$ como una matriz. Entonces
$$\begin{bmatrix}
\mathbf{c}_{1}^{T}\mathbf{y} \\
\mathbf{c}_{2}^{T}\mathbf{y} \\
\vdots \\
\mathbf{c}_{p+1}^{T}\mathbf{y}
\end{bmatrix} = \begin{bmatrix}
\mathbf{c}_{1}^{T} \\
\mathbf{c}_{2}^{T} \\
\vdots \\
\mathbf{c}_{p+1}^{T}
\end{bmatrix}\mathbf{y}
= \begin{bmatrix}
\mathbf{c}_{1} & \mathbf{c}_{2} & \cdots & \mathbf{c}_{p+1}
\end{bmatrix}^{T}\mathbf{y} = \mathbf{X}^{T}\mathbf{y}\text{.}
$$
Para la justificación de "factoring" $\mathbf{y}$, consulte este enlace, en la página 2. Por el lado derecho de $(2)$ ($k = 0, 1, \dots, p$),
$$\begin{align*}
\sum_{i=1}^{N}\sum_{j=0}^{p}x_{ij}x_{ik}\beta_{j} &= \sum_{j=0}^{p}\left(\sum_{i=1}^{N}x_{ij}x_{ik}\right)\beta_{j} \\
&= \sum_{j=0}^{p}\left(\sum_{i=1}^{N}x_{ik}x_{ij}\right)\beta_{j} \\
&=\sum_{j=0}^{p}\begin{bmatrix}
x_{1k} & x_{2k} & \cdots & x_{Nk}
\end{bmatrix}
\begin{bmatrix}
x_{1j} \\
x_{2j} \\
\vdots \\
x_{Nj}
\end{bmatrix}\beta_j \\
&= \sum_{j=0}^{p}\mathbf{c}^{T}_{k+1}\mathbf{c}_{j+1}\beta_j \\
&= \mathbf{c}^{T}_{k+1}\sum_{j=0}^{p}\mathbf{c}_{j+1}\beta_j \\
&= \mathbf{c}^{T}_{k+1}\begin{bmatrix}
\mathbf{c}_{1} & \mathbf{c}_2 & \cdots & \mathbf{c}_{p+1}
\end{bmatrix}\begin{bmatrix}
\beta_0 \\
\beta_1 \\
\vdots \\
\beta_p
\end{bmatrix}
\\
&= \mathbf{c}^{T}_{k+1}\mathbf{X}\boldsymbol{\beta}\text{.}
\end{align*} $$
Llevando a cada caso en una sola matriz, tenemos
$$\begin{bmatrix}
\mathbf{c}^{T}_{1}\mathbf{X}\boldsymbol{\beta}\\
\mathbf{c}^{T}_{2}\mathbf{X}\boldsymbol{\beta}\\
\vdots \\
\mathbf{c}^{T}_{p+1}\mathbf{X}\boldsymbol{\beta}\\
\end{bmatrix} = \begin{bmatrix}
\mathbf{c}^{T}_{1}\\
\mathbf{c}^{T}_{2}\\
\vdots \\
\mathbf{c}^{T}_{p+1}\\
\end{bmatrix}\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^{T}\mathbf{X}\boldsymbol{\beta}\text{.}$$
Por lo tanto, en la forma de la matriz, tenemos las ecuaciones normales como
$$\mathbf{X}^{T}\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^{T}\mathbf{y}\text{.}\tag{3}$$