3 votos

$\frac{d}{dX}[tr(-(CX(X^TCX)^{-1})(A+A^T)(X^TCX)^{-1})]=?$

Quiero obtener la derivada de la traza del siguiente enunciado con respecto a $X$ donde $A$ , $C$ y $X$ son matrices y $C$ es simétrica.

$$\frac{d}{dX}[tr(-(CX(X^TCX)^{-1})(A+A^T)(X^TCX)^{-1})]=?$$ donde $\frac{d}{dX}(y)$ es una matriz cuyo $(i,j)$ elemento es $\frac{dy}{dX}(i,j)$ . Dudo que mi cálculo sea correcto o no, por lo que agradezco su ayuda.

Muchas gracias por cualquier respuesta.

0voto

Fabian Puntos 12538

Asumo que todas las matrices son cuadradas y que son invertibles. En primer lugar, propongo simplificar un poco. Tenemos $$ (C X) (X^T C X)^{-1} = (CX) (CX)^{-1} (X^T)^{-1} = (X^{-1})^{T}.$$

Utilizando la invariancia cíclica de la traza, tenemos $$\operatorname{tr} [- CX (X^T CX)^{-1} (A+A^T) (X^T C X)^{-1}] = - \operatorname{tr} [ X^{-1} C^{-1} (X^{-1})^T (X^{-1})^T (A+A^T)] .$$

Ahora defina $B= X^{-1}$ calculamos primero $$\frac{\partial}{\partial B_{ij} }\operatorname{tr} [- CX (X^T CX)^{-1} (A+A^T) (X^T C X)^{-1}] = - \frac{\partial}{\partial B_{ij} } \sum_{abcde} B_{ab} (C^{-1})_{bc} B_{cd} B_{de} (A+A^T)_{ea} = -\sum_{cde} (C^{-1})_{jc} B_{cd} B_{de} (A+A^T)_{ei}- \sum_{abe} B_{ab} (C^{-1})_{bi} B_{je} (A+A^T)_{ea} - \sum_{abc} B_{ab} (C^{-1})_{bc} B_{ci} (A+A^T)_{ja},$$ o lo que es lo mismo $$\frac{\partial}{\partial B_{ij} }\operatorname{tr} [- CX (X^T CX)^{-1}(A+A^T) (X^T C X)^{-1}] = -[C^{-1} B^2 (A+A^T)]_{ji} - [B (A+A^T) B C^{-1}]_{ji} - [(A+A^T) B C^{-1} B]_{ji}. $$

Para obtener el resultado solicitado, basta con utilizar la función hecho bien conocido $$\frac{\partial B_{ij}}{\partial A_{kl}} = -(X^{-1})_{ik} (X^{-1})_{lj}$$ y aplicar la regla de la cadena.

El resultado final es $$\frac{\partial}{\partial X_{kl} }\operatorname{tr} [- CX (X^T CX)^{-1} (A+A^T) (X^T C X)^{-1}]= [X^{-1} C^{-1} X^{-2} (A+A^T) X^{-1}]_{lk} + [X^{-2}(A+A^T)X^{-1} C^{-1} X^{-1} ]_{lk}+ [X^{-1} (A+A^T) X^{-1} C^{-1} X^{-2}]_{lk} \,. $$

0voto

greg Puntos 156

Por comodidad, definamos 3 matrices simétricas que aparecen repetidamente a lo largo de la derivación $$\eqalign{ S &= A+A^T \cr Y &= X^TCX &\implies dY=2\,{\rm sym}(X^TC\,dX) \cr M &= Y^{-1}SY^{-1}\cr }$$ La diferencial de la inversa de una matriz es un resultado bien conocido
$$\eqalign{ dY^{-1} &= -Y^{-1}\,dY\,Y^{-1}\cr }$$ Dos apuntes finales.
El producto trace/Frobenius es $\,\,A:B={\rm tr}(A^TB)$
El operador sym es $\,\,{\rm sym}(A)=\frac{1}{2}(A+A^T)$

Reescribamos la función y encontremos su diferencial y luego su gradiente $$\eqalign{ \phi &= S:Y^{-1}CXY^{-1} \cr d\phi &= S:Y^{-1}C\,dX\,Y^{-1} + S:dY^{-1}CXY^{-1} + S:Y^{-1}CX\,dY^{-1} \cr &= CY^{-1}SY^{-1}:dX - S:(Y^{-1}\,dY\,Y^{-1})CXY^{-1} + S:Y^{-1}CX(Y^{-1}\,dY\,Y^{-1}) \cr &= CM:dX - M:dY\,Y^{-1}CX - M:CXY^{-1}\,dY \cr &= CM:dX - MX^TCY^{-1}:dY -Y^{-1}X^TCM:dY \cr &= CM:dX - (MX^TCY^{-1}+Y^{-1}X^TCM):dY \cr &= CM:dX - (MX^TCY^{-1}+Y^{-1}X^TCM):2\,{\rm sym}(X^TC\,dX) \cr &= CM:dX - 2\,{\rm sym}(MX^TCY^{-1}+Y^{-1}X^TCM):X^TC\,dX \cr &= \Big(CM - 2\,CX\,{\rm sym}(MX^TCY^{-1}+Y^{-1}X^TCM)\Big):dX \cr G=\frac{\partial\phi}{\partial X} &= CM - 2\,CX\,{\rm sym}(MX^TCY^{-1}+Y^{-1}X^TCM) \cr\cr }$$ Sea $B=(CX+X^TC)$ y utilizarlo para simplificar aún más la expresión del gradiente $$\eqalign{ G &= C\Big(M - XMBY^{-1} - XY^{-1}BM\Big) \cr\cr }$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X