He aquí una ilustración geométrica de lo que ocurre con la cresta negativa.
Consideraré estimadores de la forma \hat{\boldsymbol\beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1}\mathbf X^\top\mathbf y derivada de la función de pérdida \mathcal L_\lambda = \|\mathbf y - \mathbf X\boldsymbol\beta\|^2 + \lambda \|\boldsymbol\beta\|^2. He aquí una ilustración bastante estándar de lo que ocurre en un caso bidimensional con \lambda\in[0,\infty) . El lambda cero corresponde a la solución OLS, el lambda infinito reduce la beta estimada a cero:
![enter image description here]()
Ahora considere lo que sucede cuando \lambda\in(-\infty, -s^2_\max) , donde s_\mathrm{max} es el mayor valor singular de \mathbf X . Para lambdas negativas muy grandes, \hat{\boldsymbol\beta}_\lambda es, por supuesto, cercano a cero. Cuando lambda se acerca a -s^2_\max El término (\mathbf X^\top \mathbf X + \lambda \mathbf I) obtiene un valor singular que se acerca a cero, lo que significa que la inversa tiene un valor singular que va a menos infinito. Este valor singular corresponde a la primera componente principal de \mathbf X por lo que en el límite se obtiene \hat{\boldsymbol\beta}_\lambda apuntando en la dirección de PC1 pero con un valor absoluto que crece hasta el infinito.
Lo que es realmente bonito, es que se puede dibujar en la misma figura de la misma manera: las betas están dadas por los puntos donde los círculos tocan las elipses desde el interior :
![enter image description here]()
Cuando \lambda\in(-s^2_\mathrm{min},0] se aplica una lógica similar, que permite continuar la trayectoria de la cresta en el otro lado del estimador OLS. Ahora los círculos tocan las elipses por fuera. En el límite, las betas se acercan a la dirección de PC2 (pero ocurre muy lejos de este esquema):
![enter image description here]()
El (-s^2_\mathrm{max}, -s^2_\mathrm{min}) gama es algo así como un brecha energética : los estimadores no viven en la misma curva.
ACTUALIZACIÓN: En los comentarios @MartinL explica que para \lambda<-s^2_\mathrm{max} la pérdida \mathcal L_\lambda no tiene un mínimo pero sí un máximo. Y este máximo viene dado por \hat{\boldsymbol\beta}_\lambda . Por eso sigue funcionando la misma construcción geométrica con el toque del círculo/elipse: seguimos buscando puntos de gradiente cero. Cuando -s^2_\mathrm{min}<\lambda\le 0 la pérdida \mathcal L_\lambda sí tiene un mínimo y viene dado por \hat{\boldsymbol\beta}_\lambda exactamente como en el caso normal \lambda>0 caso.
Pero cuando -s^2_\mathrm{max}<\lambda<-s^2_\mathrm{min} la pérdida \mathcal L_\lambda no tiene ni máximo ni mínimo; \hat{\boldsymbol\beta}_\lambda correspondería a un punto de silla de montar. Esto explica la "brecha energética".
El \lambda\in(-\infty, -s^2_\max) surge naturalmente de una determinada regresión de cresta restringida, véase El límite del estimador de regresión de cresta de "varianza unitaria" cuando \lambda\to\infty . Esto está relacionado con lo que se conoce en la literatura quimiométrica como "regresión continua", véase mi respuesta en el hilo enlazado.
El \lambda\in(-s^2_\mathrm{min},0] puede tratarse exactamente igual que \lambda>0 La función de pérdida se mantiene igual y el estimador de cresta proporciona su mínimo.