Para mayor comodidad, define $F=(I\otimes X^T)AX+BX+C$
Quieres encontrar la derivada de $\|F\|^2_F = F:F$
Comienza con la diferencial $$\eqalign{ d(F:F) &= 2\,F:dF \cr &= 2\,F:\Big[(I\otimes dX^T)AX+(I\otimes X^T)A\,dX+B\,dX\Big] \cr &= 2\,F:(I\otimes dX^T)AX+2\,F:(I\otimes X^T)A\,dX+2\,F:B\,dX \cr &= 2\,AXF^T:(I\otimes dX)+2\,A^T(I\otimes X)F:dX+2\,B^TF:dX \cr }$$ La parte complicada es el primer término en el RHS. Asumamos que conocemos la expansión de Kronecker $AXF^T=\sum_k G_k\otimes H_k$, donde ($G_k,H_k$) tienen las mismas dimensiones que ($I,X$) respectivamente. Y usemos esto para simplificar el primer término $$\eqalign{ (AXF^T):(I\otimes dX) &= \sum_k (G_k\otimes H_k):(I\otimes dX) \cr &= \sum_k (G_k:I)\otimes(H_k:dX) \cr &= \bigg(\sum_k {\rm tr}(G_k)\,H_k\bigg):dX \cr &= Y:dX \cr }$$ Sustituyendo $$\eqalign{ d\,\|F\|^2 &= 2\,Y:dX+2\,A^T(I\otimes X)F:dX+2\,B^TF:dX \cr\cr \frac {\partial\,\|F\|^2} {\partial X} &= 2\,Y+2\,A^T(I\otimes X)F+2\,B^TF \cr }$$ Entonces hay una respuesta a tu pregunta, pero encontrar los factores de Kronecker de $AXF^T$ en cada paso de tu rutina de optimización va a ser costoso.