2 votos

¿Por qué limitar los pesos ayuda a evitar el sobreajuste en las redes neuronales?

He leído algunas cosas sobre la regularización, pero todavía no puedo entenderlo. Se dice que los pesos más pequeños favorecen una información previa de que los pesos se distribuyen alrededor de cero. Pero, ¿por qué debería ser cierto? Esta información previa por sí misma no tiene nada que ver con el sobreajuste.

También se dice que la regularización reduce (y controla) la capacidad de la red y, por tanto, reduce la posibilidad de sobreajuste. Sí, mediante la regularización limitamos la red y ésta no puede ajustarse exactamente a la señal de entrenamiento. Pero entonces, ¿cómo es posible que esa limitación mejore la generalización? No encuentro una relación lógica entre estos dos puntos. Una red que es débil en el ajuste de los datos de entrenamiento también es probable (tal vez en mayor grado en comparación con una red de mayor capacidad) a fallar en los datos no vistos.

Y cuando limitamos los pesos trabajamos alrededor de cero, exactamente en la región lineal de la función sigmoidea. Todas las afirmaciones sobre el poder de la red neuronal proviene de la función de activación no lineal. Si estamos trabajando en la región lineal, ¿dónde está ese beneficio?

2voto

Simon Puntos 21

Veo dos puntos de confusión. En primer lugar, predecir que una mala recuperación del entrenamiento significa una mala predicción supone que el conjunto de entrenamiento es una muestra representativa de todo el espacio de datos. En datos de alta dimensión, esto no suele ser así. Así que relajar el ajuste a los datos de entrenamiento tiende a mejorar el ajuste a ejemplos no incluidos en el entrenamiento. Quise decir representativa del espacio de datos, no de las muestras. Considere el caso en el que su conjunto de entrenamiento está formado principalmente por casos comunes, unos pocos poco comunes y varios casos perdidos. En ese caso, el modelo sólo funcionará bien en esa pequeña parte del espacio de datos; está sobreajustado. Esto es el resultado del proceso de optimización, que intenta ajustarse a los datos exactos lo máximo posible. Entre los conjuntos de ponderaciones que ofrecen predicciones similares para los datos, la optimización siempre favorecerá las ponderaciones que mejor se ajusten a los datos, aunque otras puedan ofrecer mejores predicciones en los nuevos datos. Si el conjunto de datos es muy grande o muy redundante, es posible que la regularización no mejore la precisión del modelo o no reduzca mucho las ponderaciones.

En segundo lugar, aunque la regularización mueve todos los pesos hacia cero, lo hace en competencia con la precisión del modelo. Por lo tanto, en cualquier punto de la red, los pesos de las características importantes no se reducirán tanto como los de las no importantes. Mientras algunas ponderaciones sigan estando acotadas lejos de cero, la activación total seguirá siendo altamente no lineal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X