Supongamos que tengo algunos datos i.i.d. $x_1, \ldots, x_n \sim N(\mu, \sigma^2)$ , donde $\sigma^2$ es fijo y $\mu$ es desconocido, y quiero estimar $\mu$ .
En lugar de dar simplemente la MLE de $\mu = \bar{x}$ se podría estimar
(1) $\mu = \lambda \mu_0 + (1 - \lambda) \bar{x},$
para una "mejor estimación previa" $\mu_0$ . Esto también tiene una buena interpretación bayesiana: colocamos una prioridad $\mu \sim N(\mu_0, \sigma^2_0)$ en $\mu$ y $\lambda$ es la precisión ponderada.
Creo recordar que esto también tiene una regularización-interpretación L2 explícita (es decir, elegimos alguna penalización y minimizamos la pérdida al cuadrado para obtener la estimación anterior), similar a cosas como el lazo y la regresión de cresta, pero no recuerdo cómo va. ¿Puede alguien explicar qué es la regularización-interpretación L2 de (1)?
[También se aceptan respuestas más generales, en las que los datos no tienen necesariamente una distribución normal].