4 votos

Derivado de la norma de Frobenius al cuadrado de la combinación lineal de matrices de rango -$1$ con respecto a sus ponderaciones

Dejar

PS

donde$${\bf A} := \sum_{i=1}^K w_i {\bf x}_i {\bf x}_i^\top$ son escalares y$\{w_i\}_{i=1}^K$. Dejar ${\bf x}_i \in \mathbb{R}^d$.

¿Cuál es la derivada de la norma de Frobenius al cuadrado${\bf w} := [w_1 \cdots w_K]^\top \in \mathbb{R}^K$ con respecto a$\|{\bf A}\|_\mathsf{F}^2$?

2voto

hypernova Puntos 171

De acuerdo a la definición, $$ \left\|A\right\|_F^2=\text{tr}\left(A^{\top}\right). $$ Por lo tanto, ya tenemos $$ A=\sum_iw_i\mathbf{x}_i\mathbf{x}_i^{\superior}, $$ obtenemos $$ A^{\top}A=\left(\sum_iw_i\mathbf{x}_i\mathbf{x}_i^{\top}\right)\left(\sum_jw_j\mathbf{x}_j\mathbf{x}_j^{\top}\right)=\sum_{i,j}w_iw_j\mathbf{x}_i\mathbf{x}_i^{\top}\mathbf{x}_j\mathbf{x}_j^{\top}. $$ En consecuencia, $$ \left\|A\right\|_F^2=\text{tr}\left(A^{\top}A\right)=\text{tr}\left(\sum_{i,j}w_iw_j\mathbf{x}_i\mathbf{x}_i^{\top}\mathbf{x}_j\mathbf{x}_j^{\top}\right)=\sum_{i,j}w_iw_j\text{tr}\left(\mathbf{x}_i\mathbf{x}_i^{\top}\mathbf{x}_j\mathbf{x}_j^{\top}\right). $$ A continuación, es sencillo ver que $$ \frac{\partial}{\partial w_k}\left\|A\right\|_F^2=\sum_{i,j}\left(\delta_{ik}w_j+w_i\delta_{ij}\right)\text{tr}\left(\mathbf{x}_i\mathbf{x}_i^{\top}\mathbf{x}_j\mathbf{x}_j^{\top}\right)=2\sum_{j}w_j\text{tr}\left(\mathbf{x}_j\mathbf{x}_j^{\top}\mathbf{x}_k\mathbf{x}_k^{\top}\right). $$

Edit: una Mayor simplificación

Gracias a @RodrigodeAzevedo la sugerencia, la última expresión podría ser más simplificado. Tenga en cuenta que $$ \text{tr}\left(\mathbf{x}_j\mathbf{x}_j^{\top}\mathbf{x}_k\mathbf{x}_k^{\top}\right)=\text{tr}\left(\mathbf{x}_k^{\top}\mathbf{x}_j\mathbf{x}_j^{\top}\mathbf{x}_k\right)=\text{tr}\left(\left|\mathbf{x}_j\cdot\mathbf{x}_k\right|^2\right)=\left|\mathbf{x}_j\cdot\mathbf{x}_k\right|^2. $$ Así tenemos $$ \frac{\partial}{\partial w_k}\left\|A\right\|_F^2=2\sum_{j}w_j\left|\mathbf{x}_j\cdot\mathbf{x}_k\right|^2. $$

2voto

greg Puntos 156

Definir las matrices $$\eqalign{ X y= [\,x_1,\, x_2\,\ldots\,x_K] &\implica x_i = Xe_i \cr W &= {\rm Diag}(w) &\implica que w = {\rm diag}(W) \cr }$$ A continuación, podemos resolver el problema en forma de matriz $$\eqalign{ A &= XWX^T \cr \phi & = \|\|_F^2 = A: \cr d\phi &= 2A:dA = 2A:(X\,dW\,X^T) = 2X^IMPUESTOS:dW = 2\,{\rm diag}(X^IMPUESTOS)^Tdw \cr \frac{\partial\phi}{\partial w} &= 2\,{\rm diag}(X^IMPUESTOS) = 2\,{\rm diag}(X^TXWX^TX) = 2\,(X^TX\odot X^TX)\w \cr\cr }$$ En algunos de los pasos anteriores, el elementwise/Hadamard producto se denota por a $A\odot B$, y el seguimiento/Frobenius producto por $A:B = {\rm tr}(A^TB)$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X