¿Cuál es la derivada de $\sum_{ij}e^{-d_{ij}^2(X)}=\sum_{ij}e^{-\operatorname{tr}(X^TC_{ij}X)}$ con respecto a $X$ donde $C_{ij}$ es una matriz constante y $d_{ij}^2(X)$ denota la distancia euclidiana al cuadrado entre las filas $i,j$ de $X$ . Todas las entradas aquí son reales
Respuestas
¿Demasiados anuncios?Bien. No cambia mucho de todos modos. Utiliza la linealidad del trazado. Escribiendo $f(X) = {\rm tr}(X^T C_{ij} X)$ y variando $X$ por $\delta X$ obtenemos $f(X+\delta X) - f(X) = {\rm tr}(\delta X^T C_{ij} X) + {\rm tr}(X^T C_{ij} \delta X)$ . Ahora utiliza lo que sabes sobre cómo se transforman las trazas de las matrices bajo la transposición del argumento y también lo que sabes sobre la forma de $C_{ij}$ para simplificar esa expresión y luego dar la derivada matricial de $g(X)$ .
¿Qué pasa con la derivada de $g(X) = \exp f(X)$ ? Desde $f$ mapea vectores a números reales, puedes usar la conocida regla de composición en la exponenciación.
Es posible que su expresión de $C_{ij}$ saca los componentes de $X$ . ¿Qué hace la suma final sobre $i$ y $j$ ¿hacer?
Consideremos la función escalar $$ \eqalign{ f_{ij} &= {\rm exp}(-C_{ij}:XX^T)\cr }$$ Su función objetivo es simplemente la suma de estas funciones: $\,\,f=\sum_{ij}f_{ij}$
A continuación, consideremos la diferencial del logaritmo de una de estas funciones escalares $$ \eqalign{ {\rm log}(f_{ij}) &= -C_{ij}:XX^T \cr d\,{\rm log}(f_{ij}) &= -C_{ij}:d\,(XX^T) \cr \frac {df_{ij}}{f_{ij}} &= -C_{ij}:d\,(XX^T) \cr &= -2\,C_{ij}\,X:dX \cr df_{ij} &= -2\,f_{ij}\,C_{ij}\,X:dX \cr \frac {\partial f_{ij}}{\partial X} &= -2\,f_{ij}\,C_{ij}\,X \cr }$$ La derivada de la función objetivo es la suma de estas derivadas $$ \eqalign{ \frac {\partial f}{\partial X} &= -2\,\sum_{ij} \,f_{ij}\,C_{ij}\,X \cr }$$ Puede sumar las cantidades indexadas y reunirlas en una única matriz $M = \sum_{ij} \,f_{ij}\,C_{ij}$ . Ahora se puede escribir la derivada como $\,\,\frac {\partial f}{\partial X} = -2MX$