4 votos

Derivado de la función cuadrática inversa de una matriz

Se me ha pegado con la siguiente derivado por algún tiempo: $$ \frac{\partial\,\mathbf{b}^\mathrm{T}(\mathbf{X}\mathbf{C}\mathbf{X}^\mathrm{T})^{-1}\mathbf{b}}{\partial\,\mathbf{X}} $$, where $\mathbf{b}\in\mathbb{R}^{M\times1}$, $\mathbf{X}\in\mathbb{R}^{M\times N}$ and $\mathbf{C}\in\mathbb{R}^{N\times N}$ and $\mathbf{C}$ es simétrica.

Tenía una mirada en la Matriz de libro de cocina, pero todavía no estoy seguro de cómo tratar con la inversa de una matriz en el segundo formulario de pedido. Es correcto aplicar la regla de la cadena? $$\frac{\partial\,\mathbf{b}^\mathrm{T}(\mathbf{X}\mathbf{C}\mathbf{X}^\mathrm{T})^{-1}\mathbf{b}}{\partial\,\mathbf{X}} = \frac{\partial\,\mathbf{b}^\mathrm{T}(\mathbf{X}\mathbf{C}\mathbf{X}^\mathrm{T})^{-1}\mathbf{b}}{\partial\,\mathbf{XCX}^\mathrm{T}}\cdot \frac{\partial \, \mathbf{XCX}^{\mathrm{T}}}{\partial \, \mathbf{X}}.$$

En este caso, la primera derivada parcial será: $$ \frac{\partial\,\mathbf{b}^\mathrm{T}(\mathbf{X}\mathbf{C}\mathbf{X}^\mathrm{T})^{-1}\mathbf{b}}{\partial\,\mathbf{XCX}^\mathrm{T}} = -(\mathbf{X}\mathbf{C}\mathbf{X}^\mathrm{T})^\mathrm{-T}\mathbf{b}\mathbf{b}^\mathrm{T}(\mathbf{X}\mathbf{C}\mathbf{X}^\mathrm{T})^{-\mathrm{T}} $$ (el uso de Eq. 55, de 1). La segunda parte, $\frac{\partial \, \mathbf{XCX}^{\mathrm{T}}}{\partial \, \mathbf{X}}$, es similar al de un cuarto de rango del tensor. ¿Cómo puedo llegar a un resultado que es un $M\times N $ de la matriz?

Yo realmente apreciaría si alguien me pudiera ayudar con esto o aportar algún consejo.

5voto

palehorse Puntos 8268

Establecimiento $D = X C X^T$ (53) de la Matriz de libro de cocina:

$$\frac{\partial\,D^{-1}}{\partial \, x_{ij}} = - D^{-1} \frac{\partial\,D}{\partial \, x_{ij}} D^{-1} $$

Además, la fórmula (72) nos dicen que

$$ \frac{\partial \,( X C X^T )}{\partial \, x_{ij}} = X C J^{ij} + J^{ji} C X^T $$

(donde $J^{ij}$ es la "singleton matrix", con un 1 en la posición $(i,j)$, cero en otro lugar).

Así

$$ \frac{\partial \, b^T (X C X^T)^{-1} b }{\parcial \, x_{ij}} = - b^T D^{-1} (X C J^{ij} + J^{ji} C X^T ) D^{-1} b = -2 u^T X C J^{ij} u $$

donde $u= D^{-1}b$ , y hemos utilizado el hecho de que $C$ es symmmetric -y, por tanto, también es $D$. Ahora la fórmula (431) dice $ u^T A J^{ij} B u = A^T u u^T B^T|_{i,j}$, de ahí que el lado derecho es igual a

$$ -2 C X^T u u^T |_{i,j}$$

Así

$$\frac{\partial \, b^T (X C X^T)^{-1} b }{\parcial \, X} = -2 C X^T u u^T = - 2 C X^T (X C X^T)^{-1} b \, b^T (X C X^T)^{-1} $$

1voto

r0ast3d Puntos 146

Según fórmula (72) en el libro matriz, $$ \frac{\partial (XCX ^ T)} {\partial X} = XCJ ^ {ji} + J ^ {ij} CX ^ T$ $

Entonces según mi conocimiento, la respuesta final llega a ser transposición de $-2CX^T uu^T$. Esto puede ser una manera como que estaba derivando la w.r.t derivados $(M\times N)$ matriz también un $(M\times N)$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X