Vamos a construir sobre lo que ya sabemos, que es que cada vez que el $n\times p$ modelo de la matriz es $X$, la respuesta $n$-vector es $y$, y el parámetro de $p$-vector es $\beta$, la función objetivo
$$f(\beta) = (y - X\beta)^\prime(y - X\beta)$$
(que es la suma de los cuadrados de los residuos) se minimiza cuando se $\beta$ resuelve las ecuaciones Normales
$$(X^\prime X)\beta = X^\prime y.$$
Cresta de regresión, se añade otro término de la función objetivo, pidiendo a minimizar
$$(y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta$$
para algunos no-negativa constante $\lambda$. Es la suma de los cuadrados de los residuos, además de un múltiplo de la suma de los cuadrados de los coeficientes de ellos mismos. Debido a $\lambda\ge 0$, tiene una raíz cuadrada positiva $\nu^2 = \lambda$. Considere la matriz $X$ aumentada con filas correspondientes a $\nu$ veces $p\times p$ matriz identidad $I$:
$$X_{*} = \pmatrix{X \\ \nu I}$$
Cuando el vector $y$ es del mismo modo extendido con $p$ ceros al final a $y_{*}$, la matriz producto en la función objetivo, añade $p$ adicional en términos de la forma $(0 - \nu \beta_i)^2 = \lambda \beta_i^2$ para el objetivo original. Por lo tanto
$$(y_{*} - X_{*}\beta)^\prime(y_{*} - X_{*}\beta) = (y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta.$$
A partir de la forma de la mano izquierda de la expresión es inmediato que las ecuaciones son
$$(X_{*}^\prime X_{*})\beta = X_{*}^\prime y_{*}.$$
Porque hemos adherido a los ceros a la final de la $y$, el lado derecho es el mismo que $X^\prime y$. En el lado izquierdo $\nu^2 I=\lambda I$ es añadido a la original $X^\prime X$. Por lo tanto, la nueva Normalidad ecuaciones simplificar a
$$(X^\prime X + \lambda I)\beta = X^\prime y.$$
Además de ser conceptualmente económica--no hay nuevas manipulaciones son necesarios para obtener este resultado también es computacionalmente económico: su software para hacer mínimos cuadrados ordinarios también hará regresión ridge sin ningún tipo de cambio. (No obstante, puede ser útil en grandes problemas para el uso de software diseñado para este propósito, porque va a explotar la especial estructura de $X_{*}$ a obtener resultados de manera eficiente por un denso espaciados intervalo de $\lambda$, lo que permite explorar cómo las respuestas varían con $\lambda$.)
Otra belleza de esta manera de ver las cosas es la forma en que nos puede ayudar a comprender regresión ridge. Cuando queremos entender realmente regresión, casi siempre ayuda a pensar que es geométricamente: las columnas de a $X$ constituyen $p$ vectores en un espacio vectorial real de dimensión $n$. Colindando $\nu I$$X$, lo que prolonga la vida les de $n$-vectores de a $n+p$-vectores, incluimos $\mathbb{R}^n$ a un espacio más grande $\mathbb{R}^{n+p}$ incluyendo $p$ "imaginario", mutuamente direcciones ortogonales. La primera columna de $X$ tiene un pequeño componente imaginario del tamaño de la $\nu$, prolongando y moverlo hacia el espacio generado por el original $p$ columnas. La segunda, tercera, ..., $p^\text{th}$ columnas son igualmente alargada y se trasladó fuera del espacio original por la misma cantidad $\nu$--pero todos en diferentes direcciones. En consecuencia, cualquier colinealidad presente en las columnas originales serán inmediatamente ser resuelto. Por otra parte, el mayor $\nu$, más de estos nuevos vectores enfoque de la persona $p$ imaginario instrucciones: se vuelven más y más ortonormales. En consecuencia, la solución de las ecuaciones Normales inmediatamente será posible y es rápidamente convertido numéricamente estable como $\nu$ aumenta de $0$.
Esta descripción del proceso sugiere algunas novedosas y creativas approaches a abordar los problemas de la Regresión Ridge fue diseñado para manejar. Por ejemplo, el uso de cualquier medio (tales como la descomposición de la varianza descrito por Belsley, Kuh, y el Galés en 1980 libro sobre la Regresión de Diagnóstico, Capítulo 3), usted puede ser capaz de identificar a los subgrupos de casi colineales columnas de $X$, donde cada subgrupo es casi ortogonal a cualquier otro. Sólo se necesita lindan con tantas filas a $X$ (y los ceros a$y$), ya que hay elementos en el grupo más grande, dedicando uno nuevo "imaginario" dimensión para desplazar a cada elemento de un grupo, lejos de sus hermanos: usted no necesita $p$ imaginario dimensiones para hacer esto.