El siguiente pasaje es de la página 215 de Aprendizaje profundo por Goodfellow, Bengio y Courville.
Por ejemplo, podemos utilizar una operación de multiplicación de matrices para crear una variable $C = AB$ . Supongamos que el gradiente de un escalar $z$ con con respecto a $C$ viene dada por $G$ . La operación de multiplicación de matrices es responsable de definir dos reglas de retropropagación, una para cada uno de sus argumentos de entrada. Si llamamos al método bprop para solicitar el gradiente con respecto a $A$ dado que el gradiente en la salida es $G$ , entonces el método bprop de la operación de multiplicación de matrices debe afirmar que el gradiente con respecto a A viene dado por $GB^T$ .
Aplican la regla de la cadena para calcular el gradiente del escalar $z = f(C)$ con respecto a $A$ . No estoy familiarizado con la idea de calcular el gradiente de un producto de matrices con respecto a una matriz. ¿Qué significa esto y por qué se transpone el resultado?