En la página 223 en Una Introducción al Aprendizaje Estadístico, los autores resumen las diferencias entre la cresta de regresión y el lazo. Ellos proporcionan un ejemplo (Figura 6.9) de cuando "lazo tiende a superar a la cresta de regresión en términos de sesgo, varianza y MSE".
Entiendo por qué lazo puede deseable: resultados en la escasa soluciones, ya que reduce muchos de los coeficientes a 0, lo que resulta en un simple e interpretables modelos. Pero no entiendo cómo se puede superar a la cresta cuando sólo predicciones son de interés (es decir, cómo es que se está muy por debajo del MSE en el ejemplo?).
Con ridge, si muchos de los predictores que casi no tienen efecto en la respuesta (con un par de predictores tener un gran efecto), no sus coeficientes simplemente ser reducido a un pequeño número muy cercano a cero... resultando en algo muy similar a lazo? Entonces, ¿por qué el modelo final tiene peor rendimiento que el lazo?