Me he encontrado con el diferencial $\frac{\partial \bf{w}}{\partial \bf{w}^T}$ muchas veces ahora, y noto que es equivalente al operador de transposición. Es decir, si tenemos algo de la forma $\bf{A}\frac{\partial w}{\partial w^T}$ podemos reescribirlo como $\bf{A}^T$ siempre que las dimensiones de $\bf{A}$ y $\frac{\partial \bf{w}}{\partial \bf{w}^T}$ de acuerdo.
Intuitivamente, el cambio de $\bf{w}$ con respecto a $\bf{w}^T$ es una transposición. ¿Es válida mi intuición y hay alguna forma de probarlo?
$\bf{EDIT1}$ : Para aclarar, $\bf{A}$ es una matriz mientras que $\bf{w}$ y $\bf{w}^T$ son vectores. El vector $\bf{w}$ se toma como un vector de la columna de dimensión $n$ y $\bf{A}$ se toma como un $n \times n$ matriz. A partir de esto tenemos que $\frac{\partial \bf{w}}{\partial \bf{w}^T}$ es un $n \times n$ matriz $\bf{W}$ donde $W_{ij} = \frac{\partial \bf{w}_i}{\partial \bf{w}^T_j}$ . La pregunta que sigue ahora es, ¿por qué $\bf{W}$ actuar como operador de transposición en $\bf{A}$ ?
$\textbf{EDIT2:}$ Para dar un ejemplo, cuando la computación $\nabla_\bf{w}$ MSE $_{\text{train}}$ en este puesto (última respuesta), el autor tiene un paso que va desde $\bf{wX^TX}\frac{\partial \bf{w}}{\partial \bf{w}^T}$ a $(\bf{wX^TX})^T$