En Introducción a la Estadística de Aprendizaje, en la parte en la cresta de la regresión se explicó, los autores dicen que
Como $\lambda$ aumenta la flexibilidad de la cresta de regresión de ajuste disminuye, dando lugar a disminución de la varianza, pero el aumento de sesgo.
Aquí está mi opinión sobre lo que demuestra esta línea:
En la cresta de regresión que tenemos para minimizar la suma:$$RSS+\lambda\sum_{j=0}^n\beta_j\\=\sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^p\beta_jx_{ij})^2+\lambda\sum_{j=1}^p\beta_j^2$$
Aquí, podemos ver que un aumento general de la $\beta$ vector disminuirá $RSS$ e incrementar el otro término. Así, con el fin de minimizar la duración, una especie de equilibrio entre la $RSS$ plazo y el $\lambda\sum_{j=0}^p\beta_j^2$ plazo. Deje que su suma se $S$.
Ahora, si queremos aumentar el$\lambda$$1$, a continuación, utilizando el valor anterior de la $\beta$ vector, $\lambda\sum_{j=1}^p\beta_j^2$ aumentará, mientras que el $RSS$ seguirá siendo la misma. Por lo tanto $S$ aumentará. Ahora, para alcanzar otro equilibrio, podemos ver que la disminución de los coeficientes de $\beta_j$ va a restaurar el equilibrio.$^{[1]}$
Por lo tanto, como una tendencia general, podemos decir que si se aumenta el valor de $\lambda$, entonces la magnitud de los coeficientes disminuye.
Ahora, si los coeficientes de los factores predictivos de disminuir, entonces su valor en el modelo disminuye. Es decir, su efecto disminuye. Y por lo tanto la flexibilidad del modelo debe disminuir.
Esta prueba parece atractiva, pero tengo la corazonada de que hay algunas lagunas de aquí y de allá. Si es correcto, bueno. Pero si no lo es me gustaría saber las razones por donde esta la prueba falla, y obviamente, la versión correcta de la misma.
$^{[1]}$: Puede adjuntar una explicación plausible sobre este punto, si es necesario.