Tenemos la función de coste
$$\| \mathrm y - \mathrm X \beta \|_2^2 + \gamma \| \beta - \beta_0 \|_2^2$$
donde $\gamma \geq 0$ . El mínimo se alcanza en
$$\hat{\beta} := ( \mathrm X^{\top} \mathrm X + \gamma \mathrm I )^{-1} ( \mathrm X^{\top} \mathrm y + \gamma \beta_0 )$$
Tenga en cuenta que $\mathrm X^{\top} \mathrm X$ puede no ser invertible, $\mathrm X^{\top} \mathrm X + \gamma \mathrm I$ es siempre invertible si $\gamma > 0$ .
Si $\gamma \gg 1$ entonces
$$\begin{array}{rl} \hat{\beta} &= ( \mathrm X^{\top} \mathrm X + \gamma \mathrm I )^{-1} ( \mathrm X^{\top} \mathrm y + \gamma \beta_0 )\\ &= ( \gamma^{-1} \mathrm X^{\top} \mathrm X + \mathrm I )^{-1} ( \gamma^{-1} \mathrm X^{\top} \mathrm y + \beta_0 )\\ &\approx ( \mathrm I - \gamma^{-1} \mathrm X^{\top} \mathrm X ) ( \beta_0 + \gamma^{-1} \mathrm X^{\top} \mathrm y )\\ &\approx ( \mathrm I - \gamma^{-1} \mathrm X^{\top} \mathrm X ) \beta_0 + \gamma^{-1} \mathrm X^{\top} \mathrm y\\ &= \beta_0 + \gamma^{-1} \mathrm X^{\top} \left( \mathrm y - \mathrm X \beta_0 \right)\end{array}$$
Para grandes $\gamma$ tenemos aproximado estimación
$$\boxed{\tilde{\beta} := \beta_0 + \gamma^{-1} \mathrm X^{\top} \left( \mathrm y - \mathrm X \beta_0 \right)}$$
Si $\gamma \to \infty$ entonces $\tilde{\beta} \to \beta_0$ como era de esperar. Multiplicando ambos lados por $\mathrm X$ obtenemos
$$\mathrm X \tilde{\beta} = \mathrm X \beta_0 + \gamma^{-1} \mathrm X \mathrm X^{\top} \left( \mathrm y - \mathrm X \beta_0 \right)$$
y, así,
$$\mathrm y - \mathrm X \tilde{\beta} = \left( \mathrm I - \gamma^{-1} \mathrm X \mathrm X^{\top} \right) \left( \mathrm y - \mathrm X \beta_0 \right)$$
que nos da $\mathrm y - \mathrm X \tilde{\beta}$ una aproximación del vector de error para grandes pero finito $\gamma$ en términos de $\mathrm y - \mathrm X \beta_0$ el vector de error para infinito $\gamma$ .
Nada de esto parece especialmente perspicaz o útil, pero puede ser mejor que nada.
3 votos
No entiendo del todo tu pregunta porque parece referirse a varias cosas diferentes: regularización, IRLS y centrarse en un valor concreto. En cuanto a esto último, sin embargo, si tuviera que sustituir $Y$ por $Y-XB$ puede aplicar la regresión Ridge estándar. Si eso es una buena idea o no depende de lo que IRLS está logrando para sus datos: obviamente, los resultados podrían ser extremadamente sensibles a la estimación IRLS.
0 votos
En realidad sólo quería saber el propósito del término de penalización que utilizaron y si la estimación de la cresta todavía tiene alguna interpretación. En $\beta$ aquí hay una matriz en el documento pero la $Y$ y $X$ siguen siendo vectores. Lo que parece que no puedo entender es que en su estimación final de la matriz predictora. Yo esperaría alguna estructura donde la diagonal domina por encima y por debajo tienen algunas contribuciones, pensar diagonal de bloques. Sin embargo, este no es el caso, así que me pregunto si la interpretación se altera cuando se utilizan diferentes combinaciones de valores de penalización y de cresta.
0 votos
No te sigo, porque no tiene sentido matemático o estadístico que $X$ y $Y$ como vectores y $\beta$ sea una matriz. Normalmente $X$ es la matriz de diseño (contiene los valores de todas las variables regresoras), $Y$ es un vector (de respuestas), y $\beta$ es un vector de coeficientes. Si quiere entender lo que significa la estimación de la regresión Ridge, repase qué es la regresión Ridge: como señalé en mi primer comentario, lo que usted describe puede reformularse como un modelo estándar de regresión Ridge.
0 votos
Regularizar hacia algún valor distinto de cero podría implementarse utilizando offsets, si el software lo implementa.
0 votos
En stats.stackexchange.com/a/311490/919 proporciono los detalles del argumento de que regularizar hacia un valor particular es lo mismo que regularizar hacia 0. Eso debería ayudar con la interpretación.