Tomemos una red neuronal convolucional de peso compartido, como la siguiente:
En el pase hacia adelante, $wa_1 = wa_2$ y $wb_1 = wb_2$ . La misma operación se realiza en diferentes partes de los datos.
En el backprop, calculo el gradiente. Si $R$ es la función de pérdida, es la expresión adecuada para el gradiente:
$$ \frac{\partial R}{\partial wa} = \displaystyle\sum_i \frac{\partial R}{\partial wa_i} $$ o es $$ \frac{\partial R}{\partial wa} = E_i\left[ \frac{\partial R}{\partial wa_i}\right] $$ ?? La segunda parece más intuitiva, pero en ESL Hastie, Tibshirani y Friedman dicen
El gradiente de la función de error R con respecto a un peso compartido es la suma de los gradientes de R con respecto a cada conexión controlada por los pesos en cuestión.
¿Es realmente la suma y no la media? Si es así, ¿por qué? La suma parece una locura: si ambos nodos están de acuerdo en una dirección, la suma los empujará quizás demasiado lejos.