La estimación tradicional de la regresión ridge es
ˆβridge=(XTX+λI)−1XTY^βridge=(XTX+λI)−1XTY
que resulta de añadir el término de penalización λ||β||22λ||β||22 .
Me ha costado encontrar bibliografía sobre la regularización hacia un valor determinado . En particular, he examinado un modelo de regresión ridge que utiliza la forma de penalización λ||β−B||22λ||β−B||22 donde BB es la estimación inicial de ββ bajo la configuración de mínimos cuadrados reponderados iterativamente. A su vez, la estimación de la regresión ridge es
ˆβridge=(XTX+λI)−1(XTY+λB).^βridge=(XTX+λI)−1(XTY+λB).
El parámetro lambda también se elige muy grande ( λ=100000λ=100000 ) lo que me hace pensar que la estimación intenta converger a BB .
¿Por qué regularizar hacia un valor? ¿Cambia esto la interpretación de ββ ?
Se agradecerá cualquier comentario y/o cita. Gracias.
3 votos
No entiendo del todo tu pregunta porque parece referirse a varias cosas diferentes: regularización, IRLS y centrarse en un valor concreto. En cuanto a esto último, sin embargo, si tuviera que sustituir YY por Y−XBY−XB puede aplicar la regresión Ridge estándar. Si eso es una buena idea o no depende de lo que IRLS está logrando para sus datos: obviamente, los resultados podrían ser extremadamente sensibles a la estimación IRLS.
0 votos
En realidad sólo quería saber el propósito del término de penalización que utilizaron y si la estimación de la cresta todavía tiene alguna interpretación. En ββ aquí hay una matriz en el documento pero la YY y XX siguen siendo vectores. Lo que parece que no puedo entender es que en su estimación final de la matriz predictora. Yo esperaría alguna estructura donde la diagonal domina por encima y por debajo tienen algunas contribuciones, pensar diagonal de bloques. Sin embargo, este no es el caso, así que me pregunto si la interpretación se altera cuando se utilizan diferentes combinaciones de valores de penalización y de cresta.
0 votos
No te sigo, porque no tiene sentido matemático o estadístico que XX y YY como vectores y ββ sea una matriz. Normalmente XX es la matriz de diseño (contiene los valores de todas las variables regresoras), YY es un vector (de respuestas), y ββ es un vector de coeficientes. Si quiere entender lo que significa la estimación de la regresión Ridge, repase qué es la regresión Ridge: como señalé en mi primer comentario, lo que usted describe puede reformularse como un modelo estándar de regresión Ridge.
0 votos
Regularizar hacia algún valor distinto de cero podría implementarse utilizando offsets, si el software lo implementa.
0 votos
En stats.stackexchange.com/a/311490/919 proporciono los detalles del argumento de que regularizar hacia un valor particular es lo mismo que regularizar hacia 0. Eso debería ayudar con la interpretación.