8 votos

Cómo calcular $\dfrac{\partial a^{\rm T}A^{-\rm T}bb^{\rm T}A^{-1}a}{\partial A}$ ?

¿Cómo puedo calcular $\dfrac{\partial a^{\rm T}A^{-\rm T}bb^{\rm T}A^{-1}a}{\partial A}$ , donde $A\in\mathbb{R}^{n\times n}$ y $a,b\in\mathbb{R}^n$ ?

1 votos

Acabo de terminar tu problema anterior... ¿Por qué añadir otra b?

0 votos

@JiaqiLi Lo siento. ¿Podría modificar su respuesta?

3voto

Cfr Puntos 2525

Sugerencia

Nombre $\phi_1 : A \mapsto A^{-1}$ , $\phi_2 : A \mapsto b^T A a$ y $\phi_3: A \mapsto A^T A$ . Tenga en cuenta que su mapa $\phi$ es $\phi = \phi_3 \circ \phi_2 \circ \phi_1$ .

A continuación, puede utilizar la regla de la cadena $\phi^\prime = \phi_3^\prime \cdot \phi_2^\prime \cdot \phi_1^\prime$ , basado en $\phi_1^\prime(A).H =-A^{-1}HA^{-1}$ , $\phi_2^\prime(A).H = b^T H a$ y $\phi_3^\prime(A).H = 2A^T H$ .

Finalmente lo conseguirás:

$$\frac{\partial \phi}{\partial A}.H = -2 (b^TA^{-1}a)^Tb^TA^{-1}HA^{-1}a =-2a^T\left(A^{-1}\right)^T bb^T A^{-1}HA^{-1}a$$

0 votos

Dado que el resultado final es un tensor de segundo orden, ¿cómo podríamos transformar el resultado a una forma matricial (sin utilizar el incremento $H$ )?

0 votos

@JiaqiLi No puedes hacer eso. La razón es que una aplicación lineal entre espacios de matrices no siempre es de la forma $H \mapsto AH$ . Este es el caso que nos ocupa. La razón es que las matrices no siempre son conmutables.

3voto

Jiaqi Li Puntos 165

El problema se acaba de modificar. Si hay b (como ahora), la solución sería mucho más sencilla. Tenga en cuenta que $$a^{\rm T}A^{-\rm T}b = b^{\rm T}A^{-1}a$$ ya que son números y la transposición de uno de ellos te daría el otro. Por lo tanto de la regla de la cadena, $$\frac{\partial}{\partial A}(a^{\rm T}A^{-\rm T}bb^{\rm T}A^{-1}a)=2(b^{\rm T}A^{-1}a)\frac{\partial}{\partial A}(b^{\rm T}A^{-1}a)$$ También hay que tener en cuenta que cuando tomamos la derivada con respecto a $A$ , ambos $a$ y $b$ se tratan como constantes. Entonces $$\frac{\partial}{\partial A}(b^{\rm T}A^{-1}a)=b^{\rm T}\frac{\partial A^{-1}}{\partial A}a$$ Por último, queda por calcular $\partial A^{-1}/\partial A$ . De la identidad $$AA^{-1} = I$$ tomando la derivada con respecto a $A$ obtenemos $$\frac{\partial}{\partial A}(AA^{-1})=IA^{-1}+A\frac{\partial A^{-1}}{\partial A}=0$$ Así, $$\frac{\partial A^{-1}}{\partial A}=-A^{-2}.$$

1 votos

La igualdad $\frac{\partial}{\partial A}(AA^{-1})=IA^{-1}+A\frac{\partial A^{-1}}{\partial A}=0$ no es correcto. La cuestión que no es fácil de entender es que $\frac{\partial A}{\partial A}$ no es la matriz $I$ sino la identidad. Y $\frac{\partial A^{-1}}{\partial A}.H = -A^{-1}HA^{-1}$ no $-A{-2}$ . Ver math.stackexchange.com/questions/1471825/ para más detalles.

0 votos

@mathcounterexamples.net Sí, tienes razón. Gracias por señalarlo. ¿Podría explicar cómo calculamos $\frac{\partial A^{-1}}{\partial A}.H = -A^{-1}HA^{-1}$ ?

0 votos

@mathcounterexamples.net He mirado el enlace que has puesto, pero sigo teniendo problemas para entender la derivada cuando la variable independiente es una matriz (tensor de 2º orden).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X