Después de leer el Capítulo 3, en el que Elementos de Aprendizaje Estadístico (Hastie, Tibshrani & Friedman), me preguntaba si era posible aplicar la famosa contracción de los métodos citados en el título de esta pregunta dada una estructura de covarianza, es decir, minimizar el (tal vez más general) cantidad $$(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1)$$
en lugar de la habitual $$(\vec{y}-X\vec{\beta})(\vec{y}-X\vec{\beta})+\lambda f(\beta).\ \ \ \ \ \ \ \ \ \ \ \ (2)$$ Esto fue motivado principalmente por el hecho de que en mi particular de la aplicación, tenemos diferentes desviaciones de las $\vec{y}$ (y a veces incluso una estructura de covarianza que puede ser estimada) y me gustaría incluir en la regresión. Lo hice por regresión ridge: al menos con mi implementación en Python/C, veo que hay diferencias importantes en los caminos que los coeficientes de seguimiento, que también es notable cuando se compara la validación cruzada curvas en ambos casos.
Me estaba preparando para intentar aplicar el LAZO a través de Menos Ángulo de Regresión, pero para hacerlo tengo que demostrar primero que todas sus propiedades atractivas todavía son válidos cuando minimizando $(1)$ en lugar de $(2)$. Hasta ahora, no he visto ningún trabajo que en realidad hace todo esto, pero hace algún tiempo también leí una cita que decía algo como "aquellos que no saben que las estadísticas están condenados a volver a ella" (por Brad Efron, tal vez?), así que por eso estoy pidiendo aquí en primer lugar (dado que soy un recién llegado relativo a las estadísticas de la literatura): es este hecho ya en algún lugar de estos modelos? Es implementado en R de alguna manera? (incluyendo la solución y la implementación de la cresta por minimizar $(1)$ en lugar de $(2)$, que es lo que se implementa en la película.ridge código R)?
Gracias de antemano por sus respuestas!