Al construir una red neuronal con una capa oculta, se planteó la cuestión de actualizar o no los sesgos durante la retropropagación. Básicamente estoy tratando de ahorrar memoria, así que mi pregunta era y es cuán grande sería la diferencia si actualizara sólo los pesos en comparación con los pesos y los sesgos. Con lo primero, no tendría que guardar ningún otro valor de bias que el valor de 1 que he establecido como estándar. ¿Tendrá entonces problemas de aprendizaje? Si es así, ¿por qué las actualizaciones de los pesos son insuficientes para entrenarlo?
EDITAR para mayor claridad: Estoy hablando de la fórmula de retropropagación
ΔW=−lO(l−1)
Δθ=−l
Donde ΔW es la diferencia (vector) de pesos, Δθ es la diferencia (vector) de los sesgos, $$ is the learning rate, O is the output (vector) of the layer (here l−1), and \N−deltal is the calculated error increment (vector) of layer l. What if you just don't use \N−Delta\N−Theta in backpropagation and leave the biases at 1?