El decaimiento del peso especifica la regularización en la red neuronal.
Durante el entrenamiento, se añade un término de regularización a la pérdida de la red para calcular el gradiente de retropropagación. El weight decay
determina lo dominante que será este término de regularización en el cálculo del gradiente.
Como regla general, cuantos más ejemplos de entrenamiento tenga, más débil debería ser este término. Cuantos más parámetros tenga, más alto debería ser este término.
Así, el decaimiento del peso es un término de regularización que penaliza los pesos grandes. Cuando el coeficiente de decaimiento del peso es grande, la penalización de los pesos grandes también es grande, cuando es pequeño los pesos pueden crecer libremente.
Así que, ahora si vuelves a leer la respuesta que enlazaste en tu pregunta, ahora tendría todo el sentido.
0 votos
youtube.com/watch?v=6g0t3Phly2M&ab_channel=DeepLearningAI Este también es un buen y corto video de Andrew Ng que habla sobre el decaimiento del peso