De acuerdo con este tutorial sobre aprendizaje profundo , la disminución de peso (regularización) generalmente no se aplica a los términos de sesgo b ¿por qué?
¿Cuál es el significado (intuición) detrás de esto?
De acuerdo con este tutorial sobre aprendizaje profundo , la disminución de peso (regularización) generalmente no se aplica a los términos de sesgo b ¿por qué?
¿Cuál es el significado (intuición) detrás de esto?
El sobreajuste generalmente requiere que la salida del modelo sea sensible a pequeños cambios en los datos de entrada (es decir, para interpolar exactamente los valores objetivo, tiende a necesitar mucha curvatura en la función ajustada). Los parámetros de sesgo no contribuyen a la curvatura del modelo, por lo que normalmente no tiene mucho sentido regularizarlos también.
La motivación detrás de L2 (o L1) es que al restringir los pesos, restringir la red, es menos probable que se sobreajuste. Tiene poco sentido restringir los pesos de los sesgos, ya que los sesgos son fijos (por ejemplo, b = 1), por lo que funcionan como intercepciones de neuronas, lo que tiene sentido para tener una mayor flexibilidad.
El tutorial dice que "la aplicación de la disminución de peso a las unidades de sesgo generalmente hace solo una pequeña diferencia en la red final", por lo que si no ayuda, puede dejar de hacerlo para eliminar un hiperparámetro. Si cree que regularizar el desplazamiento ayudaría en su configuración, valídelo de forma cruzada; no hay nada de malo en intentarlo.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.