5 votos

Derivado parcial del rastro de una matriz inversa

Tengo la siguiente función vectorial $f( \mathbf {x})= \operatorname {Tr}[( \mathbf {A}+ \operatorname {diag}( \mathbf {x}))^{-1}]$ donde $ \operatorname {diag}( \mathbf {x})$ es la matriz diagonal con valores de $n \times 1$ vector $ \mathbf {x}$ en la diagonal, y $ \mathbf {A}$ es un $n \times n$ matriz (suponiendo que $ \mathbf {A}+ \operatorname {diag}( \mathbf {x})$ es invertible). Sé que se puede expresar el rastro como la suma de formas cuadráticas que implican vectores de base ortonormal $ \mathbf {e}_i$ así que también podemos escribir $f( \mathbf {x})= \sum_ {i=1}^n \mathbf {e}_i^T( \mathbf {A}+ \operatorname {diag}( \mathbf {x}))^{-1} \mathbf {e}_i$ .

Estoy interesado en $ \frac { \partial f}{ \partial x_i}$ . ¿Hay alguna manera de expresarlo en términos de $ \mathbf {A}$ , $ \mathbf {x}$ y $ \mathbf {e}_i$ ?

7voto

szeryf Puntos 941

Esto es lo que puedes probar: Usando la definición de derivada parcial, considere $f(x+t e_i)-f(x)$ para algunos $t \in \mathbb {R}$ . Tenemos $$ f(x+t e_i) = \text {Tr}((A + \text {diag}(x) + t e_i e_i^T)^{-1}).$$ Ahora puedes aplicar el lema de inversión de la matriz: http://en.wikipedia.org/wiki/Woodbury_matrix_identity Debería ser capaz de aislar $f(x)$ en la expansión y no debería ser difícil obtener el derivado parcial deseado del remanente.

EDITORIAL: Déjame elaborar un poco más. Deje que $ \Gamma = A + \text {diag}(x)$ . Aplicar la identidad de Woodbury con $A = \Gamma $ , $U = t e_i$ , $C = 1$ (el escalar 1) y $V = e_i^T$ . Usted tiene $$ f(x + te_i) = \text {Tr} \Big ( \Gamma ^{-1} - t \frac { \Gamma ^{-1} e_i e_i^T \Gamma ^{-1}}{1 + t e_i^T \Gamma ^{-1} e_i} \Big ). $$ Ahora, aplique el rastro para obtener (utilizando la invariancia del rastro en la permutación cíclica), $$ f(x + te_i) = f(x) + \frac {-t \,e_i^T \Gamma ^{-2} e_i}{1+ t \,e_i^T \Gamma ^{-1} e_i}. $$ Por lo tanto, $$ \frac {1}{t} [ f(x + te_i) - f(x) ] \to - e_i^T \Gamma ^{-2} e_i $$ como $t \to 0$ que es el derivado parcial deseado (si no me he equivocado.)

EDITORIAL2: Permítanme también añadir esto para un problema general. Puedes evitar la identidad de Woodbury y en su lugar usar la expansión de von Neumann de $(I-B)^{-1} = I + B +B^2 + \dots $ para $\|B\| < 1$ . Así que, en este problema para $t$ lo suficientemente pequeño, tenemos (usando $(CD)^{-1}= D^{-1} C^{-1}$ ) \begin {alineado*} f(x + te_i) &= \text {Tr} [( I + t \Gamma ^{-1} e_i e_i^T)^{-1} \Gamma ^{-1} ] \\ &= \text {Tr} \big [ \big\ { I - t \Gamma ^{-1} e_i e_i^T + o(t) \big\ } \Gamma ^{-1} \big ] \\ &= \text {Tr} \big [ \Gamma ^{-1} - t \Gamma ^{-1} e_i e_i^T \Gamma ^{-1} + o(t) \big ] \\ &= f(x) - t (e_i^T \Gamma ^{-2} e_i) + o(t) \end {alineado*} que es el resultado deseado. Este enfoque parece más general y más sencillo. También produce toda la expansión de Taylor de la función. (El anterior usando Woodbury también puede darte esto, ya que terminas con una función de una variable $t$ como el remanente que puede ser expandido usando las series habituales de Taylor).

5voto

user26872 Puntos 11194

$ \def\e {{ \bf e}} \def\D { \mathrm {diag}( \x )} \def\x {{ \bf x}} \def\A {{ \bf A}} \def\M {{ \bf M}} \def\Mi {{ \bf M}^{-1}} \def\P {{ \bf P}_i} \def\id { \mathbb {I}} \def\tr { \mathrm {Tr}\,}$ Deje que $ \M = \A + \D $ . Tenga en cuenta que $d( \M\Mi ) = d \id = { \bf 0}$ . Así, $d \Mi = - \Mi d \M \Mi $ y así $$ \begin {eqnarray*} d \tr \Mi &=& d \sum \e_i ^T \Mi \e_i \\ &=& \sum \e_i ^T d \Mi \e_i \\ &=& - \sum \e_i ^T \Mi d \M \Mi \e_i. \end {eqnarray*}$$ Si $ \A $ es una función de $ \x $ Esto es lo más lejos que llegaremos, $$ \begin {eqnarray*} \frac { \partial }{ \partial x_i} \tr \Mi &=& - \sum_j \e_j ^T \Mi \frac { \partial \M }{ \partial x_i} \Mi \e_j \\ &=& - \tr \left (( \Mi )^2 \frac { \partial \M }{ \partial x_i} \right ). \end {eqnarray*}$$

Si $ \A $ no es una función de $ \x $ tenemos que $ \P = \frac { \partial \M }{ \partial x_i}$ es un operador de proyección. (Todos los componentes de $ \P $ son cero excepto el $ii$ El componente de la Tierra, que es $1$ .) En ese caso encontramos $$ \begin {eqnarray*} \frac { \partial }{ \partial x_i} \tr \Mi &=& - \sum_j \e_j ^T \Mi \P \Mi \e_j \\ &=& - \tr \left (( \Mi )^2 \P\right ) \\ &=& -( \Mi )^2_{ii} \\ &=& - \sum_j \Mi_ {ij} \Mi_ {ji}. \end {eqnarray*}$$

En términos de $ \A $ , $ \x $ y $ \e_i $ , $$ \begin {eqnarray*} \frac { \partial }{ \partial x_i} f( \x ) &=& - \sum_j \e_j ^T ( \A + \D )^{-1} \frac { \partial \D }{ \partial x_i} ( \A + \D )^{-1} \e_j \\ &=& - \sum_j \e_j ^T ( \A + \D )^{-1} \P ( \A + \D )^{-1} \e_j. \end {eqnarray*}$$ Como se ha señalado por @passerby51 podríamos encontrar una expresión para $( \A + \D )^{-1}$ en términos de $ \A ^{-1}$ y $ \D ^{-1}$ pero nos detendremos aquí.

Adición : No hicimos ninguna suposición sobre la base $ \e_i $ . Si $ \e_i $ es la base natural que lo anterior implica $$ \begin {eqnarray*} \frac { \partial }{ \partial x_i} f( \x ) &=& - \e_i ^T ( \A + \D )^{-2} \e_i , \end {eqnarray*}$$ que concuerda con el resultado de @passerby51. (Observe que en este caso $ \P = \e_i \e_i ^T$ .)

Por el La fórmula de Woodbury , $$ \begin {eqnarray*} ( \A + \D )^{-1} &=& \A ^{-1} - \A ^{-1}( \A ^{-1} + \D ^{-1})^{-1} \A ^{-1}. \end {eqnarray*}$$ Esto puede ser útil o no dependiendo de la forma de $ \A $ .

4voto

lynne Puntos 265

La solución a este problema tiene una forma bastante elegante
$$ \eqalign { \frac { \partial {f}}{ \partial {x}} = - \text {diag}([A + \text {Diag}(x)]^{-2}) } $$

Denominemos la operación de convertir un vector en una matriz diagonal como $W = Diag(w)$ .

Para la operación inversa (extracción de la diagonal de una matriz como vector) utilicemos $w = diag(W)$ .

A continuación, define el tensor de tercer orden $ \beta $ cuyos componentes son $ \beta_ {ijk} = 1$ cuando $i\!=\!j\!=k$ pero son $0$ de lo contrario.

Ahora los operadores de diag/Diag pueden ser expresados en una forma que es más conveniente para la manipulación algebraica: $$ \eqalign { \text {diag}(W) = \beta :W \cr \text {Diag}(w) = \beta\cdot w \cr }$$ Ahora para derivar la solución dada anteriormente. Dejemos que $$ \eqalign { M &= A + \beta\cdot x \cr W &= M^{-1} \cr f &= \text {tr}(W) \cr } $$ Toma los diferenciales $$ \eqalign { dM &= \beta\cdot dx = dM^T \cr dW &= -W \cdot dM \cdot W \cr df &= d[ \text {tr}(W)] \cr &= \text {tr}(dW) \cr &= - \text {tr}(W \cdot dM \cdot W) \cr &= - \text {tr}(W^2 \cdot dM) \cr &= -W^2 : dM^T \cr &= -W^2 : \beta\cdot dx \cr } $$ Así que el derivado de $f$ es $$ \eqalign { \frac { \partial f} { \partial x} &= -W^2 : \beta \cr &= - \text {diag}(W^2) \cr &= - \text {diag}([A + \text {Diag}(x)]^{-2}) \cr } $$ Si realmente desea los componentes vectoriales, tome el producto de punto con $e_k$ $$ \eqalign { \frac { \partial f} { \partial x_k} &= -e_k \cdot\text {diag}([A + \text {Diag}(x)]^{-2}) \cr } $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X