8 votos

Regresión Ridge: regularización hacia un valor

La estimación tradicional de la regresión ridge es

$$ \hat{\beta}_{ridge} = (X^TX+\lambda I)^{-1} X^T Y $$

que resulta de añadir el término de penalización $\lambda ||\beta||^2_2$ .

Me ha costado encontrar bibliografía sobre la regularización hacia un valor determinado . En particular, he examinado un modelo de regresión ridge que utiliza la forma de penalización $\lambda ||\beta-B||^2_2$ donde $B$ es la estimación inicial de $\beta$ bajo la configuración de mínimos cuadrados reponderados iterativamente. A su vez, la estimación de la regresión ridge es

$$ \hat{\beta}_{ridge} = (X^TX+\lambda I)^{-1} (X^T Y + \lambda B). $$

El parámetro lambda también se elige muy grande ( $\lambda=100000$ ) lo que me hace pensar que la estimación intenta converger a $B$ .

¿Por qué regularizar hacia un valor? ¿Cambia esto la interpretación de $\beta$ ?

Se agradecerá cualquier comentario y/o cita. Gracias.

3 votos

No entiendo del todo tu pregunta porque parece referirse a varias cosas diferentes: regularización, IRLS y centrarse en un valor concreto. En cuanto a esto último, sin embargo, si tuviera que sustituir $Y$ por $Y-XB$ puede aplicar la regresión Ridge estándar. Si eso es una buena idea o no depende de lo que IRLS está logrando para sus datos: obviamente, los resultados podrían ser extremadamente sensibles a la estimación IRLS.

0 votos

En realidad sólo quería saber el propósito del término de penalización que utilizaron y si la estimación de la cresta todavía tiene alguna interpretación. En $\beta$ aquí hay una matriz en el documento pero la $Y$ y $X$ siguen siendo vectores. Lo que parece que no puedo entender es que en su estimación final de la matriz predictora. Yo esperaría alguna estructura donde la diagonal domina por encima y por debajo tienen algunas contribuciones, pensar diagonal de bloques. Sin embargo, este no es el caso, así que me pregunto si la interpretación se altera cuando se utilizan diferentes combinaciones de valores de penalización y de cresta.

0 votos

No te sigo, porque no tiene sentido matemático o estadístico que $X$ y $Y$ como vectores y $\beta$ sea una matriz. Normalmente $X$ es la matriz de diseño (contiene los valores de todas las variables regresoras), $Y$ es un vector (de respuestas), y $\beta$ es un vector de coeficientes. Si quiere entender lo que significa la estimación de la regresión Ridge, repase qué es la regresión Ridge: como señalé en mi primer comentario, lo que usted describe puede reformularse como un modelo estándar de regresión Ridge.

5voto

Tenemos la función de coste

$$\| \mathrm y - \mathrm X \beta \|_2^2 + \gamma \| \beta - \beta_0 \|_2^2$$

donde $\gamma \geq 0$ . El mínimo se alcanza en

$$\hat{\beta} := ( \mathrm X^{\top} \mathrm X + \gamma \mathrm I )^{-1} ( \mathrm X^{\top} \mathrm y + \gamma \beta_0 )$$

Tenga en cuenta que $\mathrm X^{\top} \mathrm X$ puede no ser invertible, $\mathrm X^{\top} \mathrm X + \gamma \mathrm I$ es siempre invertible si $\gamma > 0$ .

Si $\gamma \gg 1$ entonces

$$\begin{array}{rl} \hat{\beta} &= ( \mathrm X^{\top} \mathrm X + \gamma \mathrm I )^{-1} ( \mathrm X^{\top} \mathrm y + \gamma \beta_0 )\\ &= ( \gamma^{-1} \mathrm X^{\top} \mathrm X + \mathrm I )^{-1} ( \gamma^{-1} \mathrm X^{\top} \mathrm y + \beta_0 )\\ &\approx ( \mathrm I - \gamma^{-1} \mathrm X^{\top} \mathrm X ) ( \beta_0 + \gamma^{-1} \mathrm X^{\top} \mathrm y )\\ &\approx ( \mathrm I - \gamma^{-1} \mathrm X^{\top} \mathrm X ) \beta_0 + \gamma^{-1} \mathrm X^{\top} \mathrm y\\ &= \beta_0 + \gamma^{-1} \mathrm X^{\top} \left( \mathrm y - \mathrm X \beta_0 \right)\end{array}$$

Para grandes $\gamma$ tenemos aproximado estimación

$$\boxed{\tilde{\beta} := \beta_0 + \gamma^{-1} \mathrm X^{\top} \left( \mathrm y - \mathrm X \beta_0 \right)}$$

Si $\gamma \to \infty$ entonces $\tilde{\beta} \to \beta_0$ como era de esperar. Multiplicando ambos lados por $\mathrm X$ obtenemos

$$\mathrm X \tilde{\beta} = \mathrm X \beta_0 + \gamma^{-1} \mathrm X \mathrm X^{\top} \left( \mathrm y - \mathrm X \beta_0 \right)$$

y, así,

$$\mathrm y - \mathrm X \tilde{\beta} = \left( \mathrm I - \gamma^{-1} \mathrm X \mathrm X^{\top} \right) \left( \mathrm y - \mathrm X \beta_0 \right)$$

que nos da $\mathrm y - \mathrm X \tilde{\beta}$ una aproximación del vector de error para grandes pero finito $\gamma$ en términos de $\mathrm y - \mathrm X \beta_0$ el vector de error para infinito $\gamma$ .

Nada de esto parece especialmente perspicaz o útil, pero puede ser mejor que nada.

0 votos

Vuelva a escribir $\beta-\beta_0=\alpha$ y $y=z-X\beta_0$ . Ahora tiene la configuración habitual de regresión de Ridge para el coste $||z-X\alpha||^2+\gamma||\alpha||^2$ que le permite anotar la solución inmediatamente.

3voto

GeoMatt22 Puntos 1290

Conceptualmente, puede ser útil pensar en términos de Actualización bayesiana : El término de penalización equivale a un anterior estimación $\beta_0$ con precisión $\lambda$ (es decir, una a priori gaussiana multivariante $\beta\sim\mathrm{N}_{\beta_0,\,I/\lambda}).$

En este sentido, un $\lambda$ hace no corresponden a cualquier particular valor numérico. Más bien sería un valor que "domina" el error, por lo que numéricamente debe ser grande en relación con alguna norma $\|X\|$ de la matriz de diseño. Por tanto, para su ejemplo no podemos decir si $\lambda=100000$ es "muy grande" o no, sin más información.

Dicho esto, ¿por qué puede utilizarse un valor "muy grande"? Un caso común que he visto en la práctica es cuando el problema real es mínimos cuadrados con restricciones de igualdad pero se aproxima mediante Regularización de Tikhonov con un "gran $\lambda$ ". (Esto es un poco más general que su caso, y correspondería a una matriz "ancha". $\Lambda$ tal que $\Lambda(\beta-\beta_0)=0$ podría resolverse con exactitud).

0 votos

Por lo general, la regresión Ridge sólo se lleva a cabo después de normalizar las columnas de $X$ permitiendo $\lambda$ tener algún significado intrínseco.

0 votos

@whuber gracias por la información, que desconocía.

0 votos

Creo que es $N_{\beta_0,I/\lambda}$ si el segundo parámetro representa la matriz de covarianza.

3voto

Joachim Puntos 10

Tengo una respuesta para "¿Por qué regularizar hacia un valor? ¿Cambia esto la interpretación de $\beta$ ?"

El aprendizaje por transferencia es un tipo de aprendizaje automático en el que el conocimiento del dominio de origen al realizar una tarea se transfiere al dominio de destino al realizar la misma tarea, es decir, la tarea sigue siendo la misma pero los conjuntos de datos de los dos dominios difieren.

Una forma de realizar el aprendizaje por transferencia es compartir parámetros. La intuición de alto nivel es que los parámetros del modelo del dominio de destino deben estar muy cerca de los parámetros del modelo del dominio de origen, permitiendo al mismo tiempo cierta incertidumbre. Matemáticamente, esta intuición se capta penalizando la desviación de los parámetros, es decir, $\lambda\|W_{target}W_{source}\|^2_2$ donde, $$ es el parámetro de penalización y W's es un vector de parámetros del modelo.

He utilizado este enfoque para realizar el aprendizaje por transferencia de campos aleatorios condicionales Si no, mira la Ec. 4 y el texto relacionado.

Tenía una pregunta similar para Ridge regresión publicado aquí sobre la interpretabilidad de la solución de forma cerrada.

1voto

Shift Puntos 310

Es posible entenderlo desde un Bayesiano punto de vista.

La regularización de cresta para la regresión lineal es un método bayesiano disfrazado. Véase : https://en.wikipedia.org/wiki/Lasso_(estadística)#interpretación_bayesiana (es más fácil de entender explicado en la página de wikipedia "s Lasso, pero es la misma idea con Ridge).

La convención que utilizo para la regularización es la siguiente. Minimizar: $\left(\displaystyle\sum_{i=1}^N(y_i-\beta x_i)^2\right)+\lambda\|\beta-\beta_0\|^2$ . Supongamos que el ruido tiene varianza $\sigma^2=1$ para simplificar (de lo contrario, sustituya $\lambda$ por $\lambda/\sigma^2$ en todas partes).

Regularización con coeficiente $\lambda$ significa suponer una previa normal $N(0;\frac{1}{\lambda}I)$ : "Espero como creencia previa que los coeficientes sean pequeños": La distribución a priori es una distribución normal con media $0$ y "radio" $\sqrt\frac{1}{\lambda}$ . Regularizar hacia $\beta_0$ significa suponer una previa normal $N(\beta_0;\frac{1}{\lambda}I)$ : "Espero como creencia previa que los coeficientes no estén lejos de $\beta_0$ ": la distribución a priori es una distribución normal con media $\beta_0$ y "radio" $\sqrt\frac{1}{\lambda}$ .

Este previo suele ser el resultado de una formación previa que dio $\beta_0$ como estimación. La fuerza de su creencia $\lambda$ es la potencia estadística de su primer conjunto de entrenamiento. Una lambda grande significa que antes tenías mucha información, tu creencia sólo cambia ligeramente con cada nueva muestra: una pequeña actualización por muestra.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X