11 votos

Relación entre la MLE y los mínimos cuadrados en caso de regresión lineal

Hastie y Tibshirani mencionan en la sección 4.3.2 de su libro que en el entorno de la de regresión lineal, el enfoque de mínimos cuadrados es de hecho un caso especial de máxima verosimilitud. ¿Cómo podemos demostrar este resultado?

P.D.: No escatime en detalles matemáticos.

2 votos

No es un caso especial: simplemente son idénticos cuando la distribución del error es normal.

16voto

Pankaj Puntos 249

El modelo de regresión lineal

$Y = X\beta + \epsilon$ , donde $\epsilon \sim N(0,I\sigma^2)$

$Y \in \mathbb{R}^{n}$ , $X \in \mathbb{R}^{n \times p}$ y $\beta \in \mathbb{R}^{p}$

Obsérvese que el error de nuestro modelo (residual) es ${\bf \epsilon = Y - X\beta}$ . Nuestro objetivo es encontrar un vector de $\beta$ s que minimizan el $L_2$ norma al cuadrado de este error.

Mínimos cuadrados

Datos dados $(x_1,y_1),...,(x_n,y_n)$ donde cada $x_{i}$ es $p$ dimensional, buscamos encontrar:

$$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2 $$

Máxima verosimilitud

Utilizando el modelo anterior, podemos establecer la probabilidad de los datos dados los parámetros $\beta$ como:

$$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta) $$

donde $f(y_i|x_i,\beta)$ es la pdf de una distribución normal con media 0 y varianza $\sigma^2$ . Enchufándolo:

$$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$$

Ahora bien, en general, cuando se trata de probabilidades es matemáticamente más fácil tomar el logaritmo antes de continuar (los productos se convierten en sumas, los exponenciales desaparecen), así que hagamos eso.

$$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$$

Como queremos la estimación de máxima probabilidad, queremos encontrar el máximo de la ecuación anterior, con respecto a $\beta$ . El primer término no afecta a nuestra estimación de $\beta$ así que podemos ignorarlo:

$$ \widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$$

Nótese que el denominador es una constante con respecto a $\beta$ . Por último, observa que hay un signo negativo delante de la suma. Así que encontrar el máximo de un número negativo es como encontrar el mínimo del mismo sin el negativo. En otras palabras:

$$ \widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$$

Recordemos que para que esto funcione, tuvimos que hacer ciertos supuestos del modelo (normalidad de los términos de error, media 0, varianza constante). Esto hace que los mínimos cuadrados sean equivalentes a la MLE bajo ciertas condiciones. Véase aquí y aquí para más discusión.

Para completar la información, hay que tener en cuenta que la solución se puede escribir como

$${\bf \beta = (X^TX)^{-1}X^Ty} $$

0 votos

Hola, ¡gracias por la gran respuesta! Tengo una duda: ¿cómo llegamos a la expresión para $f(y_i\ |\ x_i,\beta)$ del hecho de que $\epsilon$ ¿se distribuyen normalmente? No puedo rastrear los pasos intermedios.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X