Sí, la regularización penaliza los modelos más complejos de lo necesario. Pero, ¿también penaliza los modelos más simples de lo necesario?
Respuesta
¿Demasiados anuncios?Para los términos de regularización similares a $\left\|\theta\right\|_2^2$ en efecto, no lo hacen, sólo empujan hacia la simplicidad, es decir, los parámetros más cercanos a cero.
Términos de error como $\sum_i \left\|y_i - f_{\theta}(x_i)\right\|_2^2$ se encargan de luchar contra la complejidad (penalizando la sobre-simplificación), ya que el modelo más simple, es decir $\theta = 0$ , conduce a un error elevado.
Equilibramos estas dos fuerzas utilizando un parámetro de regularización ( $\lambda$ ) en una suma como $$\frac{1}{N}\sum_{i=1}^{N} \left\|y_i - f_{\theta}(x_i)\right\|_2^2 + \lambda\left\|\theta\right\|_2^2,$$ donde más alto $\lambda$ fuerza el modelo hacia una mayor simplicidad.