Ridge y el LAZO dada una estructura de covarianza?

Question

Ridge y el LAZO dada una estructura de covarianza?

Preguntado el 20 de Julio, 2012: Cuando se hizo la pregunta
392 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Después de leer el Capítulo 3, en el que Elementos de Aprendizaje Estadístico (Hastie, Tibshrani & Friedman), me preguntaba si era posible aplicar la famosa contracción de los métodos citados en el título de esta pregunta dada una estructura de covarianza, es decir, minimizar el (tal vez más general) cantidad $(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1)$

en lugar de la habitual $(\vec{y}-X\vec{\beta})(\vec{y}-X\vec{\beta})+\lambda f(\beta).\ \ \ \ \ \ \ \ \ \ \ \ (2)$ Esto fue motivado principalmente por el hecho de que en mi particular de la aplicación, tenemos diferentes desviaciones de las $\vec{y}$ (y a veces incluso una estructura de covarianza que puede ser estimada) y me gustaría incluir en la regresión. Lo hice por regresión ridge: al menos con mi implementación en Python/C, veo que hay diferencias importantes en los caminos que los coeficientes de seguimiento, que también es notable cuando se compara la validación cruzada curvas en ambos casos.

Me estaba preparando para intentar aplicar el LAZO a través de Menos Ángulo de Regresión, pero para hacerlo tengo que demostrar primero que todas sus propiedades atractivas todavía son válidos cuando minimizando $(1)$ en lugar de $(2)$ . Hasta ahora, no he visto ningún trabajo que en realidad hace todo esto, pero hace algún tiempo también leí una cita que decía algo como "aquellos que no saben que las estadísticas están condenados a volver a ella" (por Brad Efron, tal vez?), así que por eso estoy pidiendo aquí en primer lugar (dado que soy un recién llegado relativo a las estadísticas de la literatura): es este hecho ya en algún lugar de estos modelos? Es implementado en R de alguna manera? (incluyendo la solución y la implementación de la cresta por minimizar $(1)$ en lugar de $(2)$ , que es lo que se implementa en la película.ridge código R)?

Gracias de antemano por sus respuestas!

Preguntado el 20 de Julio, 2012 por Andrew

Answer 1

1 Respuestas

Answer 2

14voto

Nathan Long Puntos 30303

Si sabemos que la descomposición de Cholesky $V^{-1} = L^TL$ , dicen, a continuación, $(y - X\beta)^T V^{-1} (y - X\beta) = (Ly - LX\beta)^T (Ly - LX\beta)$ y podemos utilizar algoritmos estándar (con lo que la penalización de la función se prefiere) mediante la sustitución de la respuesta con el vector $Ly$ y los predictores con la matriz $LX$ .

Respondido el 20 de Julio, 2012 por Nathan Long (30303 Puntos )

Ridge y el LAZO dada una estructura de covarianza?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Ridge y el LAZO dada una estructura de covarianza?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: