6 votos

¿Suma o media de los gradientes en redes convolucionales de peso compartido (y por qué)?

Tomemos una red neuronal convolucional de peso compartido, como la siguiente: enter image description here

En el pase hacia adelante, $wa_1 = wa_2$ y $wb_1 = wb_2$ . La misma operación se realiza en diferentes partes de los datos.

En el backprop, calculo el gradiente. Si $R$ es la función de pérdida, es la expresión adecuada para el gradiente:

$$ \frac{\partial R}{\partial wa} = \displaystyle\sum_i \frac{\partial R}{\partial wa_i} $$ o es $$ \frac{\partial R}{\partial wa} = E_i\left[ \frac{\partial R}{\partial wa_i}\right] $$ ?? La segunda parece más intuitiva, pero en ESL Hastie, Tibshirani y Friedman dicen

El gradiente de la función de error R con respecto a un peso compartido es la suma de los gradientes de R con respecto a cada conexión controlada por los pesos en cuestión.

¿Es realmente la suma y no la media? Si es así, ¿por qué? La suma parece una locura: si ambos nodos están de acuerdo en una dirección, la suma los empujará quizás demasiado lejos.

5voto

alpheus Puntos 45

La suma proviene del hecho de que estos gradientes son esencialmente el resultado de los productos punto de los jacobianos.

Considere el siguiente ejemplo sencillo. Sea $\boldsymbol{s} = (s_1, s_2)$ sea el resultado de la convolución 1D $\boldsymbol{w} * \boldsymbol{x}$ para que $s_1 = w_1 x_1 + w_2 x_2$ y $s_2 = w_1 x_2 + w_2 x_3$

$$\begin{aligned} \frac{\partial R}{\partial w_1} & = \frac{\partial R}{\partial \boldsymbol{s}} \cdot \frac{\partial \boldsymbol{s}}{\partial w_1} \\ & = \begin{bmatrix}\delta_1 & \delta_2\end{bmatrix} \cdot \begin{bmatrix}x_1 \\ x_2\end{bmatrix} \\ & = \sum_i \frac{\partial R}{\partial s_i} \cdot \frac{\partial s_i}{\partial w_1} \end{aligned}$$

Tenga en cuenta que escribí su $\frac{\partial R}{\partial wa_{i}}$ como $\frac{\partial R}{\partial s_i} \frac{\partial s_i}{\partial w_a}$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X