Algo raro está pasando aquí. Estoy asumiendo $g: \mathbb R^m \to \mathbb R$ e decir $A$ $m\times n$ matriz. Deje $\mathcal a(x): \mathbb R^n \to \mathbb R^m, x \mapsto Ax + b$ la correspondiente transformación afín, por lo que el $f = g \circ a$. La regla de la cadena dice $Df(x) = Dg(a(x)) Da(x)$.
El Jacobiano de la realización de la $Dg$ $\nabla g$ $1\times m$ matriz (vector fila), mientras que el Jacobiano para$a$$A$, $m \times n $ matriz. Todas las dimensiones están de acuerdo, ya que esto $\nabla f$ $1\times n$ de la matriz, lo cual está de acuerdo con la noción de que la derivada de $f$ es lineal en el mapa de $\mathbb R^n \to \mathbb R$.
Así que lo que sospecho que está pasando es que algunos de identificación de $\mathbb R^n$ con su doble espacio debajo de la Euclidiano interior del producto; es decir, se está haciendo realidad el gradiente de un vector de columna en lugar de un vector de fila. La transposición es precisamente la forma en que esta se realiza. Si $T: V \to W$ es una transformación lineal, entonces su adjunto es $T^\dagger: W^* \to V^*$. Pero en virtud de la Euclidiano interior del producto, se puede identificar a $\mathbb R^n \cong (\mathbb R^n)^*$, por lo que
$$ (\nabla g(a(x)) A)^T = A^T [\nabla g(a(x))]^T = A^T \nabla g(a(x))$$
donde estamos abusando de la notación, identificando el vector de fila $\nabla g$ con el vector de columna $\nabla g$. Esto oculta la identificación es probable que lo que es confuso.