Después de mi pregunta anterior, la solución a la normal de las ecuaciones de regresión ridge está dada por:
$$\hat{\beta}_\lambda = (X^TX+\lambda I)^{-1}X^Ty$$
Podría ofrecer alguna orientación para elegir el parámetro de regularización $\lambda$. Además, dado que la diagonal de $X^TX$ crece con el número de observaciones $m$, debe $\lambda$ ser también una función de $m$?