Al construir una red neuronal con una capa oculta, se planteó la cuestión de actualizar o no los sesgos durante la retropropagación. Básicamente estoy tratando de ahorrar memoria, así que mi pregunta era y es cuán grande sería la diferencia si actualizara sólo los pesos en comparación con los pesos y los sesgos. Con lo primero, no tendría que guardar ningún otro valor de bias que el valor de $1$ que he establecido como estándar. ¿Tendrá entonces problemas de aprendizaje? Si es así, ¿por qué las actualizaciones de los pesos son insuficientes para entrenarlo?
EDITAR para mayor claridad: Estoy hablando de la fórmula de retropropagación
$\Delta W= -_l O_{(l-1)}$
$\Delta \theta=-_l$
Donde $\Delta W$ es la diferencia (vector) de pesos, $\Delta \theta$ es la diferencia (vector) de los sesgos, $$ is the learning rate, $ O $ is the output (vector) of the layer (here $ l-1 $), and $ \N - delta_l $ is the calculated error increment (vector) of layer $ l $. What if you just don't use $ \N - Delta \N - Theta $ in backpropagation and leave the biases at $ 1$?