7 votos

Regularización y estimación de la media

Supongamos que tengo algunos datos i.i.d. $x_1, \ldots, x_n \sim N(\mu, \sigma^2)$ , donde $\sigma^2$ es fijo y $\mu$ es desconocido, y quiero estimar $\mu$ .

En lugar de dar simplemente la MLE de $\mu = \bar{x}$ se podría estimar

(1) $\mu = \lambda \mu_0 + (1 - \lambda) \bar{x},$

para una "mejor estimación previa" $\mu_0$ . Esto también tiene una buena interpretación bayesiana: colocamos una prioridad $\mu \sim N(\mu_0, \sigma^2_0)$ en $\mu$ y $\lambda$ es la precisión ponderada.

Creo recordar que esto también tiene una regularización-interpretación L2 explícita (es decir, elegimos alguna penalización y minimizamos la pérdida al cuadrado para obtener la estimación anterior), similar a cosas como el lazo y la regresión de cresta, pero no recuerdo cómo va. ¿Puede alguien explicar qué es la regularización-interpretación L2 de (1)?

[También se aceptan respuestas más generales, en las que los datos no tienen necesariamente una distribución normal].

3voto

Patrick Puntos 183

Claro, sería equivalente al siguiente problema de optimización tipo cresta:

$\underset{\mu\in\mathbb{R}|\mu_0,\lambda\geq0}{\min} ||x_i-\mu-\mu_0||_2+\lambda\mu^2$

Para $\lambda=0$ , $\mu+\mu_0$ va a la solución OLS (es decir $\bar{x}$ ), para $\lambda=\infty$ se reduce a $\mu_0$ .

3voto

DavLink Puntos 101

La regresión Ridge (Hoerl y Kennard, 1988) se desarrolló inicialmente para superar las singularidades al invertir $X^tX$ (añadiendo $\lambda$ a sus elementos diagonales). Así, el regularización en este caso consiste en trabajar con una matriz vc $(X^tX-\lambda I)^{-1}$ . Esta penalización L2 conduce a predicciones "mejores" que con el MCO habitual al optimizar el compromiso entre el sesgo y la varianza (contracción), pero sufre al considerar todos los coeficientes del modelo. Los coeficientes de regresión resultan ser

$$ \hat\beta=\underset{\beta}{\operatorname{argmin}}\|Y-X\beta\|^2 + \lambda\|\beta\|^2 $$

con $\vert\vert\beta\vert\vert^2 = \sum_{j=1}^p\beta_j^2$ (norma L2).

Desde una perspectiva bayesiana, se puede considerar que el $\beta$ debe ser pequeño y conectarlo a una distribución a priori. La probabilidad $\ell (y,X,\hat\beta,\sigma^2)$ puede ser ponderada por la probabilidad previa de $\hat\beta$ (se supone i.i.d. con media y varianza cero $\tau^2$ ), y se encuentra que la posterior es

$$ f(\beta|y,X,\sigma^2,\tau^2)=(y-\hat\beta^tX)^t(y-\hat\beta^tX)+\frac{\sigma^2}{\tau^2}\hat\beta^t\hat\beta $$

donde $\sigma^2$ es la varianza de su $y$ 's. De ello se desprende que esta densidad es la opuesta a la suma residual de cuadrados que se quiere minimizar en el marco de Ridge, tras establecer $\lambda=\sigma^2/\tau^2$ .

El estimador bayesiano para $\hat\beta$ es, por tanto, la misma que la de OLS cuando se considera la función de pérdida de Ridge con una varianza a priori $\tau^2$ . Puede encontrar más detalles en Los elementos del aprendizaje estadístico de Hastie, Tibshirani y Friedman (§3.4.3, p.60 en la 1ª ed.). El segunda edición también está disponible de forma gratuita.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X