2 votos

Derivada de una matriz con respecto a una matriz

Tengo un producto matriz con $\mathbf{X} \in \mathbb{R}^{m\times n}$ como $\mathbf{F(X)} = \mathbf{XAA}^T$ donde $\mathbf{A}$ es una matriz constante con respecto a $\mathbf{X}$ . Veo que puedo escribir lo siguiente según Wikipedia . $$ d\mathbf{F(X)} = (d\mathbf{X})\mathbf{AA}^T + \mathbf{X}d(\mathbf{AA}^T) = (d\mathbf{X})\mathbf{AA}^T $$

Desde aquí, puedo escribir, $$ \frac{d\mathbf{F(X)}}{d\mathbf{X}} = \mathbf{I}_{m\times n}\mathbf{AA}^T = \mathbf{AA}^T $$

Nótese que me he ayudado del hecho de que la derivada de un ${m\times n}$ matriz $\mathbf{A}$ con respecto a sí mismo es $\mathbf{I}_{m\times n}$ como se encuentra en la página 4 del Notas sobre el cálculo matricial de Paul L. Fackler . No estoy seguro de qué es exactamente $\mathbf{I}_{m\times n}$ es, pero lo estoy tomando como una especie de matriz de identidad generalizada y asumiendo que premultiplicando $\mathbf{AA}^T$ con $\mathbf{I}_{m\times n}$ resultados en $\mathbf{AA}^T$ sólo.

Así que, en resumen, mi pregunta es si puedo escribir $\frac{d\mathbf{F(X)}}{d\mathbf{X}}$ como $\mathbf{AA}^T$ ¿En este caso?

3voto

JessieAlaa Puntos 11

El diferencial es correcto $$\eqalign{ dF &= dX\,AA^T \cr &= I\,dX\,AA^T\cr }$$ Lo que normalmente hago en este punto es seguir la convención Magnus-Neudecker y aplicar vec() a ambos lados $$\eqalign{ {\rm vec}(dF) &= (AA^T\otimes I)\,{\rm vec}(dX) \cr d{\rm vec}(F) &= (AA^T\otimes I)\,\,d{\rm vec}(X) \cr\cr \frac {\partial\,{\rm vec}(F)} {\partial\,{\rm vec}(X)^T} &= AA^T\otimes I \cr }$$ Si no utiliza la vectorización, tendrá que lidiar con $\frac{\partial F}{\partial X}$ como un tensor de cuarto orden completo. En cuyo caso la notación de índice es la mejor manera de proceder.

En cualquier caso, el derivado no es definitivamente $AA^T$ que no es más que una matriz, es decir, un tensor de segundo orden.

0voto

rych Puntos 1138

La derivación (o linealización) de una función ya lineal es la propia función. De hecho, siguiendo la definición mantengamos el término h-lineal en $$ f(x+h)-f(x)=f(x)+f(h)-f(x)=f(h) $$ Por lo tanto, escribimos $$D_xf= f$$ En su caso, $D_XF=AA^T$ evaluado en cualquier $H\in\mathbb R^{m\times n}$ como $D_XF(H)=HAA^T.$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X