El modelo de regresión lineal
$Y = X\beta + \epsilon$ , donde $\epsilon \sim N(0,I\sigma^2)$
$Y \in \mathbb{R}^{n}$ , $X \in \mathbb{R}^{n \times p}$ y $\beta \in \mathbb{R}^{p}$
Obsérvese que el error de nuestro modelo (residual) es ${\bf \epsilon = Y - X\beta}$ . Nuestro objetivo es encontrar un vector de $\beta$ s que minimizan el $L_2$ norma al cuadrado de este error.
Mínimos cuadrados
Datos dados $(x_1,y_1),...,(x_n,y_n)$ donde cada $x_{i}$ es $p$ dimensional, buscamos encontrar:
$$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2 $$
Máxima verosimilitud
Utilizando el modelo anterior, podemos establecer la probabilidad de los datos dados los parámetros $\beta$ como:
$$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta) $$
donde $f(y_i|x_i,\beta)$ es la pdf de una distribución normal con media 0 y varianza $\sigma^2$ . Enchufándolo:
$$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$$
Ahora bien, en general, cuando se trata de probabilidades es matemáticamente más fácil tomar el logaritmo antes de continuar (los productos se convierten en sumas, los exponenciales desaparecen), así que hagamos eso.
$$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$$
Como queremos la estimación de máxima probabilidad, queremos encontrar el máximo de la ecuación anterior, con respecto a $\beta$ . El primer término no afecta a nuestra estimación de $\beta$ así que podemos ignorarlo:
$$ \widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$$
Nótese que el denominador es una constante con respecto a $\beta$ . Por último, observa que hay un signo negativo delante de la suma. Así que encontrar el máximo de un número negativo es como encontrar el mínimo del mismo sin el negativo. En otras palabras:
$$ \widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$$
Recordemos que para que esto funcione, tuvimos que hacer ciertos supuestos del modelo (normalidad de los términos de error, media 0, varianza constante). Esto hace que los mínimos cuadrados sean equivalentes a la MLE bajo ciertas condiciones. Véase aquí y aquí para más discusión.
Para completar la información, hay que tener en cuenta que la solución se puede escribir como
$${\bf \beta = (X^TX)^{-1}X^Ty} $$
2 votos
No es un caso especial: simplemente son idénticos cuando la distribución del error es normal.