1 votos

Derivada de una matriz diagonal

Necesito ayuda para tomar la derivada de algunas cantidades con respecto a una matriz diagonal. Digamos que la matriz diagonal es $\boldsymbol{X}_d = \text{diag} \{ x_1, \dots, x_d \}$ (perdón por la anotación). Necesito obtener las siguientes derivadas $$\frac{\partial}{\partial \boldsymbol{X}_d} \text{Tr} \{ \boldsymbol{A} \boldsymbol{X}_d \boldsymbol{B} \} \quad \text{and} \quad \frac{\partial}{\partial \boldsymbol{X}_d} \ln | \boldsymbol{A} \boldsymbol{X}_d |.$$

Inicialmente, probé ingenuamente las fórmulas para la matriz general, pero después de obtener la estimación de $\boldsymbol{X}_d$ no obtuve una matriz diagonal, lo que no tiene sentido, así que sé que debe haber algo especial con la derivada respecto a una matriz diagonal. No he encontrado muchos recursos sobre este tema, así que quiero publicar la pregunta y obtener ayuda. Por favor, ayúdenme si pueden. Muchas gracias.

2voto

greg Puntos 156

$\def\d{{\rm diag}}\def\D{{\rm Diag}}\def\p#1#2{\frac{\partial #1}{\partial #2}}$ Vamos a utilizar dos puntos para denotar el producto traza/Frobenius $$\eqalign{ A:B &= {\rm Tr}(A^TB) \;=\; \sum_{j=1}^m\sum_{k=1}^n A_{jk} B_{jk} \\ A:A &= \big\|A\big\|_F^2 \\ }$$ En el caso de que $(A,B)$ son vectores, esta definición corresponde al producto punto estándar. La idea clave es que la matriz/vector a cada lado de los dos puntos debe tener las mismas dimensiones.

El producto de Frobenius tiene muchas propiedades interesantes.
En particular, para matrices dimensionalmente compatibles $(A,B,C)$ y el vector $(v)$ $$\eqalign{ AB:C &= A:CB^T \\&= B:A^TC \\&= C:AB \\ A:\D(v) &= \d(A):v \\ }$$ ${\bf NB}\!:\,$ El operador diag con 'D' mayúscula crea una matriz diagonal a partir de un vector, mientras que el de 'd' minúscula crea un vector a partir de la diagonal de una matriz.

Escribe la primera función en términos de este producto.
A continuación, calcula su diferencial y su gradiente. $$\eqalign{ \phi &= (BA):\D(x) \\&= \d(BA):x \\ d\phi &= \d(BA):dx \\ \p{\phi}{x} &= \d(BA) \\ \p{\phi}{X} &= \D\big(\d(BA)\big) = I\odot BA \\ }$$ donde $\odot$ denota el producto elemental/Hadamard y $I$ es la matriz de identidad.

Para la segunda función $\,Y=AX\;$ y utilizar Fórmula de Jacobi $$\eqalign{ \psi &= \log(\det(Y)) \\ d\psi &= Y^{-T}:dY \\ &= (AX)^{-T}:A\,dX \\ &= A^T(A^{-T}X^{-T}):dX \\ &= X^{-1}:\D(dx) \\ &= \d(X^{-1}):dx \\ \p{\psi}{x} &= \d(X^{-1}) \\ \p{\psi}{X} &= \D\big(\d(X^{-1})\big) = I\odot X^{-1} = X^{-1} \\ }$$ desde $X\,\left({\rm and}\,X^{-1}\right)$ ya es una matriz diagonal, el operador Diag no tiene ningún efecto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X