Tengo entendido cómo cresta de regresión se reduce a cero los coeficientes de geométricamente. Por otra parte sé cómo demostrar que en el especial de "Ortonormales Caso," pero estoy confundido cómo funciona en el caso general, a través de la "descomposición Espectral."
Respuesta
¿Demasiados anuncios?La pregunta que aparece a pedir una demostración de que la Regresión Ridge reduce los coeficientes estimados a cero, utilizando una descomposición espectral. La descomposición espectral puede ser entendida como una fácil consecuencia de la Descomposición de Valor Singular (SVD). Por lo tanto, este post se inicia con la enfermedad vesicular porcina. Se explica en términos sencillos y, a continuación, se ilustra con las aplicaciones más importantes. A continuación, se proporciona la solicitada (algebraica) de demostración. (El álgebra, por supuesto, es idéntica a la demostración geométrica; simplemente está redactado en un idioma diferente.)
La fuente original de esta respuesta se puede encontrar en mi regresión notas del curso. Esta versión corrige algunos errores menores.
Lo que el SVD es
Cualquier n×p matrizX,p≤n, puede ser escrito X=UDV′ donde
-
U n×p matriz.
- Las columnas de U tienen la longitud 1.
- Las columnas de U son mutuamente ortogonales.
- Ellos se llaman los componentes principales de X.
-
V p×p matriz.
- Las columnas de V tienen la longitud 1.
- Las columnas de V son mutuamente ortogonales.
- Esto hace que V una rotación de Rp.
-
D es una diagonal p×p matriz.
- Los elementos de la diagonal d11,d22,…,dpp son no negativas. Estos son los valores singulares de a X.
- Si queremos, podemos ordenarlos de mayor a menor.
Criterios (1) y (2) afirman que tanto U V son ortonormales matrices. Ellos pueden ser perfectamente resumida por las condiciones
U′U=1p, V′V=1p.
Como consecuencia (V representa una rotación), VV′=1p también. Este será utilizado en la Cresta de Regresión derivación a continuación.
Lo que hace por nosotros
Se puede simplificar fórmulas. Aquí están algunos ejemplos.
Las Ecuaciones Normales
Considere la posibilidad de la regresión y=Xβ+ε. Recordar los mínimos cuadrados solución a través de la Normal de Ecuaciones, ˆβ=(X′X)−1X′y. Uso la enfermedad vesicular porcina:
(X′X)−1X′=((UDV′)′(UDV′))−1(UDV′)′=(VDU′UDV′)−1(VDU′)=VD−2V′VDU′=VD−1U′.
La única diferencia entre este y X′=VDU′ es que los recíprocos de los elementos de D son usados!
Para referencia en el futuro, el aviso de que "girado" estimaciones de la V′ˆβ son combinaciones lineales de "girar" respuestas U′y. Los coeficientes son los inversos de los (positivo) en diagonal, con elementos de D, igual a d−1ii.
La covarianza de los coeficientes estimados de
Recordemos que la covarianza de las estimaciones es Cov(ˆβ)=σ2(X′X)−1. Using the SVD, this becomes σ2(VD2V′)−1=σ2VD−2V′. In other words, the covariance acts like that of k orthogonal variables, each with variances d2ii, that have been rotated in Rk.
El Sombrero de la matriz
El sombrero de la matriz es H=X(X′X)−1X′. By means of the preceding result we may rewrite it as H=(UDV′)(VD−1U′)=UU′. Simple!
Eigenanalysis (descomposición espectral)
Desde X′X=VDU′UDV′=VD2V′ and XX′=UDV′VDU′=UD2U′, es inmediato que
- Los autovalores de a X′X XX′ son los cuadrados de los valores singulares.
- Las columnas de V son los vectores propios de a X′X.
- Las columnas de U son algunos de los vectores propios de a XX′. (Otros vectores propios que existen pero que corresponden a los autovalores cero.)
Enfermedad vesicular porcina puede diagnosticar y resolver problemas de colinealidad.
La aproximación de los regresores
Cuando reemplace el más pequeño de los valores singulares con ceros, cambiará el producto UDV′ sólo ligeramente. Ahora, sin embargo, los ceros eliminar las columnas correspondientes de U, reduciendo el número de variables. Siempre que se eliminan las columnas tienen poca correlación con el y, esto puede funcionar eficazmente como una variable de reducción de la técnica.
La Regresión Ridge
Deje que las columnas de a X ser estandarizada, así como de y sí. Para λ>0 el estimador ridge es de ˆβR=(X′X+λ)−1X′y=(VD2V′+λ1p)−1VDU′y=(VD2V′+λVV′)−1VDU′y=(V(D2+λ)V′)−1VDU′y=V(D2+λ)−1V′VDU′y=V(D2+λ)−1DU′y.
La diferencia entre este y ˆβ es el reemplazo de las D−1=D−2D(D2+λ)−1D. En efecto, esto multiplica el original por la fracción D2/(D2+λ). Porque (al λ>0) el denominador es obviamente mayor que el numerador, las estimaciones de los parámetros de "reducir a cero."
Este resultado tiene que ser entendida en el poco sutil sentido aludido anteriormente: el girado estimaciones de V′ˆβR todavía son combinaciones lineales de los vectores U′y, pero cada coeficiente--que solía ser d−1ii--se ha multiplicado por un factor de d2ii/(d2ii+λ). Como tal, el girado coeficientes debe reducir, pero es posible, cuando se λ es lo suficientemente pequeño, para algunas de las ˆβR realmente a aumentar de tamaño.
Para evitar distracciones, el caso de uno de los más singulares valores fue excluido en esta discusión. En tales circunstancias, si convenimos en tomar "d−1ii" a ser cero, entonces todo lo que todavía funciona. Esto es lo que está pasando cuando generalizada inversas se utilizan para resolver las ecuaciones Normales.