Regresión ridge, la función objetivo a minimizar es: $$\text{RSS}+\lambda \sum\beta_j^2.$ $
¿Esto se puede optimizar utilizando el método de multiplicadores de Lagrange? ¿O es recta diferenciación?
Regresión ridge, la función objetivo a minimizar es: $$\text{RSS}+\lambda \sum\beta_j^2.$ $
¿Esto se puede optimizar utilizando el método de multiplicadores de Lagrange? ¿O es recta diferenciación?
Hay dos formulaciones de la cordillera problema. La primera es
$$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)$$
sujeto a
$$\sum_{j} \beta_j^2 \leq s. $$
Esta formulación muestra el tamaño de restricciones sobre los coeficientes de regresión. Nota: lo que esta restricción implica; nos están obligando a los coeficientes se encuentran en una bola alrededor del origen con radio de $\sqrt{s}$.
La segunda formulación es exactamente tu problema
$$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right) + \lambda \sum\beta_j^2 $$
que puede ser visto como el Largrange multiplicador de la formulación. Tenga en cuenta que aquí $\lambda$ es un parámetro de ajuste y valores más grandes de lo conducirá a una mayor contracción. Usted puede proceder a diferenciar la expresión con respecto a $\boldsymbol{\beta}$ y obtener el conocido estimador ridge
$$\boldsymbol{\beta}_{R} = \left( \mathbf{X}^{\prime} \mathbf{X} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} \tag{1}$$
Las dos formulaciones son completamente equivalentes, ya que no hay una correspondencia uno a uno entre el$s$$\lambda$.
Permítanme elaborar un poco sobre eso. Imagínese que usted está en el ideal ortogonal caso, $\mathbf{X}^{\prime} \mathbf{X} = \mathbf{I}$. Este es un muy simplificada y poco realista de la situación, pero podemos investigar el estimador de un poco más de cerca así que tengan paciencia conmigo. Considere lo que sucede a la ecuación (1). El estimador ridge reduce a
$$\boldsymbol{\beta}_R = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \boldsymbol{\beta}_{OLS} $$
como en el ortogonal caso de que el estimador de MCO es dado por $\boldsymbol{\beta}_{OLS} = \mathbf{X}^{\prime} \mathbf{y}$. Mirando este componente sabio ahora obtenemos
$$\beta_R = \frac{\beta_{OLS}}{1+\lambda} \tag{2}$$
Aviso que ahora la contracción es constante para todos los coeficientes. Esto quizás no sea así en el caso general, y, de hecho, se puede demostrar que las contracciones se difieren ampliamente si hay degeneraciones en el $\mathbf{X}^{\prime} \mathbf{X}$ matriz.
Pero volvamos al problema de optimización restringida. Por el KKT teoría, una necesaria condición de optimalidad es
$$\lambda \left( \sum \beta_{R,j} ^2 -s \right) = 0$$
así que o $\lambda = 0$ o $\sum \beta_{R,j} ^2 -s = 0$ (en este caso decimos que la restricción es vinculante). Si $\lambda = 0$, entonces no hay penalidad y estamos de vuelta en el ordinario de OLS situación. Supongamos entonces que la restricción es vinculante y estamos en la segunda situación. Utilizando la fórmula (2), tenemos entonces
$$ s = \sum \beta_{R,j}^2 = \frac{1}{\left(1 + \lambda \right)^2} \sum \beta_{OLS,j}^2$$
de dónde obtenemos
$$\lambda = \sqrt{\frac{\sum \beta_{OLS,j} ^2}{s}} - 1 $$
el uno a uno relación afirmado previamente. Espero que esto es más difícil de establecer en la no-ortogonal caso, pero el resultado lleva independientemente.
Mire de nuevo al (2), aunque verás que falta aún la $\lambda$. Para obtener un valor óptimo para ello, puede utilizar la validación cruzada o buscar en la cresta de la traza. El último método consiste en construir una secuencia de $\lambda$ en (0,1) y mirando cómo las estimaciones de cambio. A continuación, seleccione la $\lambda$ que las estabiliza. Este método fue propuesto en la segunda de las referencias abajo por el camino y es el más antiguo.
Referencias
Hoerl, Arthur E., y Robert W. Kennard. "Regresión Ridge: estimación Sesgada para nonorthogonal problemas." Technometrics 12.1 (1970): 55-67.
Hoerl, Arthur E., y Robert W. Kennard. "Regresión Ridge: aplicaciones para nonorthogonal problemas." Technometrics 12.1 (1970): 69-82.
Mi libro modelos de Regresión de Estrategias profundiza en el uso de efectivo AIC para la elección de $\lambda$. Esto viene de la penalizado registro de probabilidad y los grados efectivos de libertad, siendo esta última una función de cuánto variaciones de la $\hat{\beta}$ son reducidas por la penalización. Una presentación acerca de esto está aquí. El R rms
paquete pentrace
encuentra $\lambda$ que optimiza eficaz AIC, y también permite múltiples pena de parámetros (por ejemplo, uno para el lineal de efectos principales, uno no lineal de efectos principales, uno para el lineal de los efectos de la interacción, y uno no lineal de los efectos de la interacción).
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.