La regresión de Ridge regulariza la regresión lineal imponiendo una penalización sobre el tamaño de los coeficientes. Por lo tanto, los coeficientes se reducen hacia cero y entre sí. Pero cuando esto sucede y si las variables independientes no tienen la misma escala, la reducción no es justa. Dos variables independientes con escalas diferentes tendrán contribuciones diferentes a los términos penalizados, porque el término penalizado es una suma de cuadrados de todos los coeficientes. Para evitar este tipo de problemas, a menudo, las variables independientes se centran y escalan para tener una varianza de 1.
[Edición posterior para responder al comentario]
Supongamos ahora que tienes una variable independiente $altura$. Ahora bien, la altura humana puede medirse en pulgadas, metros o kilómetros. Si se mide en kilómetros, entonces en la regresión lineal estándar creo que dará un término de coeficiente mucho más grande que si se mide en milímetros.
El término de penalización con lambda es el mismo que expresar la función de pérdida cuadrática con respecto a la suma de cuadrados de coeficientes menor o igual a una constante dada. Eso significa que un lambda más grande da mucho espacio a la suma de cuadrados de coeficientes, y un lambda más bajo un espacio más pequeño. Un espacio más grande o más pequeño significa valores absolutos de coeficientes más grandes o más pequeños.
Si no se utiliza la estandarización, entonces para ajustar el modelo podría requerir valores absolutos grandes de los coeficientes. Por supuesto, podríamos tener un valor de coeficiente grande naturalmente, debido al papel de la variable en el modelo. Lo que afirmo es que este valor podría tener un valor artificialmente inflado debido a la falta de escala. Entonces, la escala también disminuye la necesidad de valores grandes de coeficientes. Por lo tanto, el valor óptimo de lambda suele ser más pequeño, lo que corresponde a una suma más pequeña de los valores al cuadrado de los coeficientes.