8 votos

Regresión Ridge: regularización hacia un valor

La estimación tradicional de la regresión ridge es

ˆβridge=(XTX+λI)1XTY^βridge=(XTX+λI)1XTY

que resulta de añadir el término de penalización λ||β||22λ||β||22 .

Me ha costado encontrar bibliografía sobre la regularización hacia un valor determinado . En particular, he examinado un modelo de regresión ridge que utiliza la forma de penalización λ||βB||22λ||βB||22 donde BB es la estimación inicial de ββ bajo la configuración de mínimos cuadrados reponderados iterativamente. A su vez, la estimación de la regresión ridge es

ˆβridge=(XTX+λI)1(XTY+λB).^βridge=(XTX+λI)1(XTY+λB).

El parámetro lambda también se elige muy grande ( λ=100000λ=100000 ) lo que me hace pensar que la estimación intenta converger a BB .

¿Por qué regularizar hacia un valor? ¿Cambia esto la interpretación de ββ ?

Se agradecerá cualquier comentario y/o cita. Gracias.

3 votos

No entiendo del todo tu pregunta porque parece referirse a varias cosas diferentes: regularización, IRLS y centrarse en un valor concreto. En cuanto a esto último, sin embargo, si tuviera que sustituir YY por YXBYXB puede aplicar la regresión Ridge estándar. Si eso es una buena idea o no depende de lo que IRLS está logrando para sus datos: obviamente, los resultados podrían ser extremadamente sensibles a la estimación IRLS.

0 votos

En realidad sólo quería saber el propósito del término de penalización que utilizaron y si la estimación de la cresta todavía tiene alguna interpretación. En ββ aquí hay una matriz en el documento pero la YY y XX siguen siendo vectores. Lo que parece que no puedo entender es que en su estimación final de la matriz predictora. Yo esperaría alguna estructura donde la diagonal domina por encima y por debajo tienen algunas contribuciones, pensar diagonal de bloques. Sin embargo, este no es el caso, así que me pregunto si la interpretación se altera cuando se utilizan diferentes combinaciones de valores de penalización y de cresta.

0 votos

No te sigo, porque no tiene sentido matemático o estadístico que XX y YY como vectores y ββ sea una matriz. Normalmente XX es la matriz de diseño (contiene los valores de todas las variables regresoras), YY es un vector (de respuestas), y ββ es un vector de coeficientes. Si quiere entender lo que significa la estimación de la regresión Ridge, repase qué es la regresión Ridge: como señalé en mi primer comentario, lo que usted describe puede reformularse como un modelo estándar de regresión Ridge.

5voto

Tenemos la función de coste

yXβ22+γββ022yXβ22+γββ022

donde γ0γ0 . El mínimo se alcanza en

ˆβ:=(XX+γI)1(Xy+γβ0)^β:=(XX+γI)1(Xy+γβ0)

Tenga en cuenta que XXXX puede no ser invertible, XX+γIXX+γI es siempre invertible si γ>0γ>0 .

Si γ1γ1 entonces

ˆβ=(XX+γI)1(Xy+γβ0)=(γ1XX+I)1(γ1Xy+β0)(Iγ1XX)(β0+γ1Xy)(Iγ1XX)β0+γ1Xy=β0+γ1X(yXβ0)

Para grandes γ tenemos aproximado estimación

˜β:=β0+γ1X(yXβ0)

Si γ entonces ˜ββ0 como era de esperar. Multiplicando ambos lados por X obtenemos

X˜β=Xβ0+γ1XX(yXβ0)

y, así,

yX˜β=(Iγ1XX)(yXβ0)

que nos da yX˜β una aproximación del vector de error para grandes pero finito γ en términos de yXβ0 el vector de error para infinito γ .

Nada de esto parece especialmente perspicaz o útil, pero puede ser mejor que nada.

0 votos

Vuelva a escribir ββ0=α y y=zXβ0 . Ahora tiene la configuración habitual de regresión de Ridge para el coste ||zXα||2+γ||α||2 que le permite anotar la solución inmediatamente.

3voto

GeoMatt22 Puntos 1290

Conceptualmente, puede ser útil pensar en términos de Actualización bayesiana : El término de penalización equivale a un anterior estimación β0 con precisión λ (es decir, una a priori gaussiana multivariante βNβ0,I/λ).

En este sentido, un λ hace no corresponden a cualquier particular valor numérico. Más bien sería un valor que "domina" el error, por lo que numéricamente debe ser grande en relación con alguna norma X de la matriz de diseño. Por tanto, para su ejemplo no podemos decir si λ=100000 es "muy grande" o no, sin más información.

Dicho esto, ¿por qué puede utilizarse un valor "muy grande"? Un caso común que he visto en la práctica es cuando el problema real es mínimos cuadrados con restricciones de igualdad pero se aproxima mediante Regularización de Tikhonov con un "gran λ ". (Esto es un poco más general que su caso, y correspondería a una matriz "ancha". Λ tal que Λ(ββ0)=0 podría resolverse con exactitud).

0 votos

Por lo general, la regresión Ridge sólo se lleva a cabo después de normalizar las columnas de X permitiendo λ tener algún significado intrínseco.

0 votos

@whuber gracias por la información, que desconocía.

0 votos

Creo que es Nβ0,I/λ si el segundo parámetro representa la matriz de covarianza.

3voto

Joachim Puntos 10

Tengo una respuesta para "¿Por qué regularizar hacia un valor? ¿Cambia esto la interpretación de β ?"

El aprendizaje por transferencia es un tipo de aprendizaje automático en el que el conocimiento del dominio de origen al realizar una tarea se transfiere al dominio de destino al realizar la misma tarea, es decir, la tarea sigue siendo la misma pero los conjuntos de datos de los dos dominios difieren.

Una forma de realizar el aprendizaje por transferencia es compartir parámetros. La intuición de alto nivel es que los parámetros del modelo del dominio de destino deben estar muy cerca de los parámetros del modelo del dominio de origen, permitiendo al mismo tiempo cierta incertidumbre. Matemáticamente, esta intuición se capta penalizando la desviación de los parámetros, es decir, λWtargetWsource22 donde, $$ es el parámetro de penalización y W's es un vector de parámetros del modelo.

He utilizado este enfoque para realizar el aprendizaje por transferencia de campos aleatorios condicionales Si no, mira la Ec. 4 y el texto relacionado.

Tenía una pregunta similar para Ridge regresión publicado aquí sobre la interpretabilidad de la solución de forma cerrada.

1voto

Shift Puntos 310

Es posible entenderlo desde un Bayesiano punto de vista.

La regularización de cresta para la regresión lineal es un método bayesiano disfrazado. Véase : https://en.wikipedia.org/wiki/Lasso_(estadística)#interpretación_bayesiana (es más fácil de entender explicado en la página de wikipedia "s Lasso, pero es la misma idea con Ridge).

La convención que utilizo para la regularización es la siguiente. Minimizar: (Ni=1(yiβxi)2)+λββ02 . Supongamos que el ruido tiene varianza σ2=1 para simplificar (de lo contrario, sustituya λ por λ/σ2 en todas partes).

Regularización con coeficiente λ significa suponer una previa normal N(0;1λI) : "Espero como creencia previa que los coeficientes sean pequeños": La distribución a priori es una distribución normal con media 0 y "radio" 1λ . Regularizar hacia β0 significa suponer una previa normal N(β0;1λI) : "Espero como creencia previa que los coeficientes no estén lejos de β0 ": la distribución a priori es una distribución normal con media β0 y "radio" 1λ .

Este previo suele ser el resultado de una formación previa que dio β0 como estimación. La fuerza de su creencia λ es la potencia estadística de su primer conjunto de entrenamiento. Una lambda grande significa que antes tenías mucha información, tu creencia sólo cambia ligeramente con cada nueva muestra: una pequeña actualización por muestra.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X