Estaba leyendo este pdf y en la página 6 la proposición 8 dice:
No entiendo muy bien los pasos que traen de
α=n∑j=1n∑i=1aijxixj
a su derivado
∂α∂x=n∑j=1akjxJ+n∑i=1aikxi
y luego el resultado final:
∂α∂x=xTAT+xTA
¿Puede alguien ayudarme?
Estaba leyendo este pdf y en la página 6 la proposición 8 dice:
No entiendo muy bien los pasos que traen de
α=n∑j=1n∑i=1aijxixj
a su derivado
∂α∂x=n∑j=1akjxJ+n∑i=1aikxi
y luego el resultado final:
∂α∂x=xTAT+xTA
¿Puede alguien ayudarme?
Otra forma de abordar esta fórmula es utilizar la definición de las derivadas en el cálculo multivariable. La función es α:Rn→R y la matriz de Jocabian Dα=∂α∂x es, por tanto, un n×n y por definición satisface la siguiente ecuación lim Pero tenga en cuenta \alpha(x+h) - \alpha(h) = (x+h)^T A (x+h)- x^T A x = h^T A x + x^T A h . Desde h^T A x = x^T A^T h tenemos \alpha(x+h) - \alpha(h) = x^T(A^T + A)h . De ahí se desprende \frac{\partial \alpha}{\partial x} = x^T(A^T+A) .
Considere un genérico 1 \leq k \leq n . Podemos escribir lo siguiente: \alpha = \sum_{j=1}^n\sum_{i=1}^n a_{ij} x_{i} x_{j} = \sum_{j=1}^n\left(\sum_{i=1, i \neq k}^n a_{ij} x_{i} x_{j} + a_{kj}x_{k}x_{j}\right) = \\ = \sum_{i=1, i \neq k}^n \sum_{j=1}^na_{ij} x_{i} x_{j} + \sum_{j=1}^na_{kj}x_{k}x_{j} =\\ = \sum_{i=1, i \neq k}^n \left(\sum_{j=1, j\neq k}^na_{ij} x_{i} x_{j} + a_{ik}x_i x_k\right) + \sum_{j=1, j \neq k}^na_{kj}x_{k}x_{j} + a_{kk}x_{k}^2 =\\ = \sum_{i=1, i \neq k}^n \sum_{j=1, j\neq k}^na_{ij} x_{i} x_{j} + \sum_{i=1, i\neq k}^na_{ik}x_i x_k + \sum_{j=1, j \neq k}^na_{kj}x_{k}x_{j} + a_{kk}x_{k}^2.\\
En concreto, hemos separado todas las contribuciones en función de x_k y los que no dependen de x_k . Ahora está claro que: \frac{\partial \alpha}{\partial x_k} = \sum_{i=1, i\neq k}^na_{ik}x_i + \sum_{j=1, j \neq k}^na_{kj}x_{j} + 2a_{kk}x_{k}.
Podemos seguir trabajando en la última expresión:
\frac{\partial \alpha}{\partial x_k} = \left[\sum_{i=1}^na_{ik}x_i - a_{kk}x_k\right] + \left[\sum_{j=1}^na_{kj}x_{j} - a_{kk}x_k\right] + 2a_{kk}x_{k} = \sum_{i=1}^na_{ik}x_i + \sum_{j=1}^na_{kj}x_{j}.
Ahora, podemos intentar obtener una representación vectorial. Vamos a plantear:
donde {\bf f} y {\bf g} son vectores de fila.
Está claro que:
y por lo tanto:
\frac{\partial \alpha}{\partial {\bf x}} = {\bf x}^\top {\bf A} + {\bf x}^\top {\bf A}^\top.
Enfoque alternativo (una vez que se acostumbre a estas notaciones, entonces será más fácil)
Antes de empezar a derivar el gradiente, algunos datos:
Dejemos que f := x^T A x = {\rm tr}\left(x^T A x \right) = x:Ax . (El rastreo de un escalar devolverá el mismo escalar).
Ahora, podemos obtener primero la diferencial y luego el gradiente. \begin{align} df = d \ {\rm tr }\left ( x^T A x \right) &= d\left(x : A x \right) \\ &= \left(dx : Ax\right) + \left(x : A \ dx\right) \\ &= \left(Ax : dx\right) + \left(A^Tx : dx\right) \\ &= \left( Ax + A^T x \right) : dx\\ &= \left( Ax + A^T x \right)^T : dx^T\\ &= \left( x^T A^T + x^T A \right) : dx^T\\ \end{align}
Así, el gradiente es \begin{align} \frac{\partial}{\partial x^T} \left( x^T Ax \right)= x^T A^T + x^T A. \end{align}
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.