He leído esto Correo electrónico: pero quería más aclaraciones para una pregunta más amplia.
En Keras, ahora hay tres tipos de regularizadores para una capa: kernel_regularizer
, bias_regularizer
, activity_regularizer
.
He leído posts que explican la diferencia entre norma L1 y norma L2, pero en un sentido intuitivo, me gustaría saber cómo afectará cada regularizador a los tres tipos de regularizadores mencionados y cuándo usar qué.
El motivo de mi pregunta es que, según tengo entendido, los regularizadores suelen aplicarse a la función de pérdida. Sin embargo, se están añadiendo incluso al término de sesgo. No soy capaz de envolver mi cabeza en torno a por qué uno podría pensar en hacer esto, y mucho menos ser capaz de discernir cuándo utilizar L1 y L2 para el regularizador de sesgo. Por lo tanto, quería obtener una comprensión global de las tres entidades que los regularizadores se aplican en y, en general, saber cómo los 2 tipos de regularizadores pueden afectar a cada una de esas entidades en un nivel alto.