En una red neuronal típica, ¿cuál es la forma habitual de añadir regularización?
Suponiendo una tarea de regresión, la pérdida por error de regresión es el error cuadrático medio
Entonces podemos tener dos opciones de regularización en los pesos:
- $\lambda$ * $\sum ||W||^2$
- $\lambda$ * $\textbf{average} ||W||^2$
He visto que la mayoría de la gente utiliza el primero opción, sólo por curiosidad de preguntar.