Estaba siguiendo https://www.analyticsvidhya.com/blog/2015/02/avoid-over-fitting-regularization/ para comprender la comprensión básica de la regularización en las aplicaciones de aprendizaje automático.
En la sección "Fundamentos de la regularización", los autores han comentado que un valor cero del parámetro lambda corresponde a un sobreajuste, mientras que un valor infinito corresponde a una "estimación de la media única" (véase la imagen adjunta para el extracto). ¿Cómo se estima realmente la media única? Cualquier ayuda.
¿Estoy en lo cierto cuando digo que lambda será un vector en lugar de un escalar con el mismo tamaño que el número de características tomadas para el problema en cuestión?