71 votos

Derivación de la ecuación de regresión de cresta

Estoy teniendo algunos problemas con la derivación de la ecuación de regresión de cresta

Sé que la parte sin la regularización param como

Unesdoc.unesco.org unesdoc.unesco.org

Pero después de agregar el término L2$\beta = (X^TX)^{-1}X^Ty$ ¿cómo es que la solución es

Unesdoc.unesco.org unesdoc.unesco.org

Me refiero a cómo es que el gradiente de L2 término es$\lambda||\beta||_2^2$

79voto

jldugger Puntos 7490

Vamos a construir sobre lo que ya sabemos, que es que cada vez que el $n\times p$ modelo de la matriz es $X$, la respuesta $n$-vector es $y$, y el parámetro de $p$-vector es $\beta$, la función objetivo

$$f(\beta) = (y - X\beta)^\prime(y - X\beta)$$

(que es la suma de los cuadrados de los residuos) se minimiza cuando se $\beta$ resuelve las ecuaciones Normales

$$(X^\prime X)\beta = X^\prime y.$$

Cresta de regresión, se añade otro término de la función objetivo, pidiendo a minimizar

$$(y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta$$

para algunos no-negativa constante $\lambda$. Es la suma de los cuadrados de los residuos, además de un múltiplo de la suma de los cuadrados de los coeficientes de ellos mismos. Debido a $\lambda\ge 0$, tiene una raíz cuadrada positiva $\nu^2 = \lambda$. Considere la matriz $X$ aumentada con filas correspondientes a $\nu$ veces $p\times p$ matriz identidad $I$:

$$X_{*} = \pmatrix{X \\ \nu I}$$

Cuando el vector $y$ es del mismo modo extendido con $p$ ceros al final a $y_{*}$, la matriz producto en la función objetivo, añade $p$ adicional en términos de la forma $(0 - \nu \beta_i)^2 = \lambda \beta_i^2$ para el objetivo original. Por lo tanto

$$(y_{*} - X_{*}\beta)^\prime(y_{*} - X_{*}\beta) = (y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta.$$

A partir de la forma de la mano izquierda de la expresión es inmediato que las ecuaciones son

$$(X_{*}^\prime X_{*})\beta = X_{*}^\prime y_{*}.$$

Porque hemos adherido a los ceros a la final de la $y$, el lado derecho es el mismo que $X^\prime y$. En el lado izquierdo $\nu^2 I=\lambda I$ es añadido a la original $X^\prime X$. Por lo tanto, la nueva Normalidad ecuaciones simplificar a

$$(X^\prime X + \lambda I)\beta = X^\prime y.$$


Además de ser conceptualmente económica--no hay nuevas manipulaciones son necesarios para obtener este resultado también es computacionalmente económico: su software para hacer mínimos cuadrados ordinarios también hará regresión ridge sin ningún tipo de cambio. (No obstante, puede ser útil en grandes problemas para el uso de software diseñado para este propósito, porque va a explotar la especial estructura de $X_{*}$ a obtener resultados de manera eficiente por un denso espaciados intervalo de $\lambda$, lo que permite explorar cómo las respuestas varían con $\lambda$.)

Otra belleza de esta manera de ver las cosas es la forma en que nos puede ayudar a comprender regresión ridge. Cuando queremos entender realmente regresión, casi siempre ayuda a pensar que es geométricamente: las columnas de a $X$ constituyen $p$ vectores en un espacio vectorial real de dimensión $n$. Colindando $\nu I$$X$, lo que prolonga la vida les de $n$-vectores de a $n+p$-vectores, incluimos $\mathbb{R}^n$ a un espacio más grande $\mathbb{R}^{n+p}$ incluyendo $p$ "imaginario", mutuamente direcciones ortogonales. La primera columna de $X$ tiene un pequeño componente imaginario del tamaño de la $\nu$, prolongando y moverlo hacia el espacio generado por el original $p$ columnas. La segunda, tercera, ..., $p^\text{th}$ columnas son igualmente alargada y se trasladó fuera del espacio original por la misma cantidad $\nu$--pero todos en diferentes direcciones. En consecuencia, cualquier colinealidad presente en las columnas originales serán inmediatamente ser resuelto. Por otra parte, el mayor $\nu$, más de estos nuevos vectores enfoque de la persona $p$ imaginario instrucciones: se vuelven más y más ortonormales. En consecuencia, la solución de las ecuaciones Normales inmediatamente será posible y es rápidamente convertido numéricamente estable como $\nu$ aumenta de $0$.

Esta descripción del proceso sugiere algunas novedosas y creativas approaches a abordar los problemas de la Regresión Ridge fue diseñado para manejar. Por ejemplo, el uso de cualquier medio (tales como la descomposición de la varianza descrito por Belsley, Kuh, y el Galés en 1980 libro sobre la Regresión de Diagnóstico, Capítulo 3), usted puede ser capaz de identificar a los subgrupos de casi colineales columnas de $X$, donde cada subgrupo es casi ortogonal a cualquier otro. Sólo se necesita lindan con tantas filas a $X$ (y los ceros a$y$), ya que hay elementos en el grupo más grande, dedicando uno nuevo "imaginario" dimensión para desplazar a cada elemento de un grupo, lejos de sus hermanos: usted no necesita $p$ imaginario dimensiones para hacer esto.

42voto

Sergio Puntos 220

Basta con modificar la función de pérdida y añadir la penalización. En términos de matriz, la función de pérdida cuadrática inicial se convierte en$$ \min_{\beta} \; (Y - X\beta)^{T}(Y-X\beta) + \lambda \beta^T\beta$ $ Derivando con respecto a$\beta$ lleva a la ecuación normal$$ X^{T}Y = \left(X^{T}X + \lambda I\right)\beta $ $ que conduce al estimador Ridge.

31voto

pthesling Puntos 11

La derivación incluye el cálculo de la matriz, que puede ser bastante tedioso. Nos gustaría resolver el siguiente problema: \begin{equation} \min_\beta (Y-\beta^T X)^T(Y-\beta^T X)+\lambda \beta^T \beta \end {equation}

Ahora notamos que \begin{equation} \frac{\partial (Y-\beta^T X)^T (Y-\beta^T X)}{\partial \beta}=2X^T(Y-\beta^T X) \end {equation} y \begin{equation} \frac{\partial \lambda \beta^T \beta}{\beta}=2\lambda\beta. \end {equation} Juntos llegamos a la condición de primer orden \begin{equation} X^TY = X^TX\beta + \lambda\beta. \end {equation} Aislando$\beta$ -{equation}

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X