Dado $$\frac{\partial J}{\partial z_2}=\delta_1$$ $$z_2 = hW_2+b_2$$ Derivar los gradientes de $J$ con respecto a $h$ y $W_2$ , donde $J \in \mathbb{R}$ , $z_2 \in \mathbb{R}^{D_x \times D_y}$ , $\delta_1 \in \mathbb{R}^{D_x \times D_y}$ , $W_2 \in \mathbb{R}^{H \times D_y}$ , $h \in \mathbb{R}^{D_x \times H}$ .
Aquí está la solución correcta: \begin {align*} & \frac { \partial J}{ \partial h}= \frac { \partial J}{ \partial z_2} \frac { \partial z_2}{ \partial h}= \delta_1 W_2^T \\ & \frac { \partial J}{ \partial W_2}= \frac { \partial z_2}{ \partial W_2} \frac { \partial J}{ \partial z_2}=h^T \delta_1 \end {align*}
Los resultados se obtienen aplicando la regla de la cadena, aunque encadenando en diferentes órdenes. El cambio de órdenes refleja un compromiso para cumplir los requisitos de dimensión de $\frac{\partial J}{\partial W_2}$ . Es muy molesto tener que examinar la dimensión cada vez. ¿Existe alguna regla general que se pueda seguir para saber qué orden hay que aplicar en términos de regla de la cadena sin examinar la dimensión?