Entiendo que podemos emplear a la regularización en un mínimo de cuadrados de regresión problema como
\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right]
y que este problema tiene una forma cerrada de solución como:
\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}.
Vemos que en la 2ª ecuación, la regularización es simplemente la adición de \lambda a la diagonal de \boldsymbol{X}^T\boldsymbol{X}, lo que se hace para mejorar la estabilidad numérica de la inversión de matrices.
Mi actual 'crudo' comprensión numérica, la estabilidad es que si una función se convierte en más " numéricamente estable, a continuación, su salida será menos afectada significativamente por el ruido en sus entradas. Estoy teniendo dificultades relacionadas con este concepto de la mejora de la estabilidad numérica de la imagen más grande, de cómo se evita o reduce el problema de sobreajuste.
He intentado buscar en la Wikipedia y de algunos otros sitios web de las universidades, pero ellos no van a lo profundo de explicar por qué esto es así.