He leído algunas cosas sobre la regularización, pero todavía no puedo entenderlo. Se dice que los pesos más pequeños favorecen una información previa de que los pesos se distribuyen alrededor de cero. Pero, ¿por qué debería ser cierto? Esta información previa por sí misma no tiene nada que ver con el sobreajuste.
También se dice que la regularización reduce (y controla) la capacidad de la red y, por tanto, reduce la posibilidad de sobreajuste. Sí, mediante la regularización limitamos la red y ésta no puede ajustarse exactamente a la señal de entrenamiento. Pero entonces, ¿cómo es posible que esa limitación mejore la generalización? No encuentro una relación lógica entre estos dos puntos. Una red que es débil en el ajuste de los datos de entrenamiento también es probable (tal vez en mayor grado en comparación con una red de mayor capacidad) a fallar en los datos no vistos.
Y cuando limitamos los pesos trabajamos alrededor de cero, exactamente en la región lineal de la función sigmoidea. Todas las afirmaciones sobre el poder de la red neuronal proviene de la función de activación no lineal. Si estamos trabajando en la región lineal, ¿dónde está ese beneficio?