4 votos

Derivado de $A^\top A$

Deje $f(A):= A^\top A$ donde $A$ $m \times n$ matriz. Queremos encontrar la derivada de $f$ con respecto al $A$. Por derivados que queremos decir para encontrar el Jacobiano de todas las derivadas parciales de $f(A)$ con respecto a $A$. Aquí es cómo proceder.

La Derivada de $f$ es el lineal de mapa $D f(A): X \a^\X superior + X^\la parte superior de Una$. Let $K$ ser la conmutación de la matriz tal que $K\operatorname{vec}(X^\top A) = \operatorname{vec}(A^\top X)$. A continuación,

\begin{align} \operatorname{vec}(A^\top X + X^\top A) & = \operatorname{vec}(A^\top X) + \operatorname{vec}(X^\top A) \\ & = (I_n\otimes A^\top) \operatorname{vec}(X) + \operatorname{vec}(X^\top A) \\ & = I_n (\otimes A^\top) \operatorname{vec}(X) + K_{n,n} \operatorname{vec}(A^\top X) \\ & = (I_n \otimes A^\top) \operatorname{vec}(X) + K_{n, n} (I_n \otimes A^\top) \operatorname{vec}(X) \end{align}

Ahora sigue que \begin{align} \frac{\partial f}{\partial A} & = (I_n \otimes A^\top) + K_{n, n} (I_n \otimes A^\top) \end{align}

Aquí estoy usando el hecho de que $\operatorname{vec}(AXB) = (B^\top \otimes A)\operatorname{vec}(X)$ donde $\operatorname{vec}$ es la vectorización del operador.

Me inspiré en esta respuesta y la ecuación correspondiente en la sección de los Diferenciales de la Cuadrática Productos en esta página web

Mis Preguntas:

  1. Es este enfoque correcto?. Si no ¿cómo ir sobre la búsqueda de la deseada derivados?

  2. ¿Donde puedo encontrar las referencias relativas a este tipo de manipulación?. (No me refiero a este particular, la manipulación, sino una referencia para los derivados de matrices en general). Miré en Cuerno y Johnson Análisis de la Matriz, pero una 'matriz de conmutación' está en ninguna parte ser encontrado. Cuando digo referencia, me refiero a un riguroso algebraicas lineales de exposición.

4voto

greg Puntos 156

Tomar el diferencial de la expresión $$\eqalign{ F &= A^TA \cr dF &= dA^T\,a + a^T\,dA \cr }$$ En este punto, usted puede utilizar vectorizations $$\eqalign{ {\rm vec}(dF) &= {\rm vec}(dA^T\,) + {\rm vec}(A^T\,dA) \cr df &= (A^T\otimes I)(K\,da) + (I\otimes A^T)\,da \cr \frac{\partial f}{\partial} &= (A^T\otimes I)K + (I\otimes A^T) \cr }$$ o tensor de métodos $$\eqalign{ dF & = I{\mathcal E}^T):({\mathcal K}:dA) + (A^T{\mathcal E}I):dA \cr \frac{\partial F}{\partial} y= ({\mathcal E}^T):{\mathcal K} + A^T{\mathcal E} \cr }$$ donde un colon representa el doble de la contracción del producto, es decir, $$(X:{\mathcal E})_{kl} = \sum_{ij} X_{ij} {\mathcal E}_{ijkl} $$ mientras yuxtaposiciones representan solo las contracciones $$(X{\mathcal E}Y)_{ikmr} = \sum_{jp} X_{ij} {\mathcal E}_{jkmp} Y_{pr} $$ El vacío de 4º orden, los tensores tienen componentes $$\eqalign{ {\mathcal E}_{ijkl} &= \delta_{ik} \delta_{jl} \cr {\mathcal K}_{ijkl} &= \delta_{il} \delta_{jk} \cr\cr }$$ Para referencias, trate de
"La matriz de Cálculo Diferencial" por Magnus y Neudecker
"Complejo de valores de la Matriz de Derivados" Son Hjorungnes

0voto

John Polcari Puntos 38

Usted está cerca. Por mi cálculo (comprobado en un $2\,x\,2$ ejemplo) $$\frac{\partial }{{\partial \underline {\overline {\bf{A}} } }}\left( {{{\underline {\overline {\bf{A}} } }^T}\underline {\overline {\bf{A}} } } \right) = \left( {{{\underline {\overline {\bf{I}} } }_{\left[ n \right]}} \otimes {{\underline {\overline {\bf{A}} } }^T}} \right) + \left( {{{\underline {\overline {\bf{A}} } }^T} \otimes {{\underline {\overline {\bf{I}} } }_{\left[ n \right]}}} \right){\underline {\overline {\bf{K}} } _{\left[ {m,n} \right]}}$$ Derivación: $$\frac{\partial }{{\partial \underline {\overline {\bf{A}} } }}\left( {{{\underline {\overline {\bf{A}} } }^T}\underline {\overline {\bf{A}} } } \right) = {\left. {\frac{\partial }{{\partial \underline {\overline {\bf{A}} } }}\left( {{{\underline {\overline {\bf{A}} } }^T}\underline {\overline {\bf{A}} } } \right)} \right|_{{{\underline {\overline {\bf{A}} } }^T}{\rm{ constant}}}} + {\left. {\frac{\partial }{{\partial \underline {\overline {\bf{A}} } }}\left( {{{\underline {\overline {\bf{A}} } }^T}\underline {\overline {\bf{A}} } } \right)} \right|_{\underline {\overline {\bf{A}} } {\rm{ constant}}}}$$ Para el primer término $${\underline {\overline {\bf{A}} } ^T}\underline {\overline {\bf{A}} } = {\underline {\overline {\bf{A}} } ^T}\underline {\overline {\bf{A}} } \,{\underline {\overline {\bf{I}} } _{\left[ n \right]}} = \left( {{{\underline {\overline {\bf{I}} } }_{\left[ n \right]}} \otimes {{\underline {\overline {\bf{A}} } }^T}} \right){\rm{vec}}\left( {\underline {\overline {\bf{A}} } } \right)$$ así que $${\left. {\frac{\partial }{{\partial \underline {\overline {\bf{A}} } }}\left( {{{\underline {\overline {\bf{A}} } }^T}\underline {\overline {\bf{A}} } } \right)} \right|_{{{\underline {\overline {\bf{A}} } }^T}{\rm{ constant}}}} = \left( {{{\underline {\overline {\bf{I}} } }_{\left[ n \right]}} \otimes {{\underline {\overline {\bf{A}} } }^T}} \right)$$ Para el segundo término $${\underline {\overline {\bf{A}} } ^T}\underline {\overline {\bf{A}} } = {\underline {\overline {\bf{I}} } _{\left[ n \right]}}{\underline {\overline {\bf{A}} } ^T}\underline {\overline {\bf{A}} } = \left( {{{\underline {\overline {\bf{A}} } }^T} \otimes {{\underline {\overline {\bf{I}} } }_{\left[ n \right]}}} \right){\rm{vec}}\left( {{{\underline {\overline {\bf{A}} } }^T}} \right) = \left( {{{\underline {\overline {\bf{A}} } }^T} \otimes {{\underline {\overline {\bf{I}} } }_{\left[ n \right]}}} \right){\underline {\overline {\bf{K}} } _{\left[ {m,n} \right]}}{\rm{vec}}\left( {\underline {\overline {\bf{A}} } } \right)$$ así que $${\left. {\frac{\partial }{{\partial \underline {\overline {\bf{A}} } }}\left( {{{\underline {\overline {\bf{A}} } }^T}\underline {\overline {\bf{A}} } } \right)} \right|_{\underline {\overline {\bf{A}} } {\rm{ constant}}}} = \left( {{{\underline {\overline {\bf{A}} } }^T} \otimes {{\underline {\overline {\bf{I}} } }_{\left[ n \right]}}} \right){\underline {\overline {\bf{K}} } _{\left[ {m,n} \right]}}$$ Me pareció un reto para unir todos los diferentes resultados necesarios para hacer este tipo de cálculo con soltura (la que yo necesitaba para calcular el determinante Jacobiano de la enfermedad vesicular porcina transformaciones). Uno muy útil la referencia que se ocupa con la eliminación y la conmutación de las matrices es:

Magnus, J., y Neudecker, H., "La Eliminación de la Matriz: Algunos de los Lemas y de las Aplicaciones," SIAM J. en Algebraicas. y Discretos Metanfetamina., V. 1, número 4, pp 422-449, Dic. 1980.

Sin embargo, esto no cubre nada que ver con el cálculo lado de las cosas. Me terminó de compilar mi propia lista de resultados útiles, que (para el caso real) pueden ser encontrados aquí en la Sección 3. El hecho de que es Rev 8 da una idea de lo fácil que es para desordenar las cosas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X