Estoy estudiando acerca de la EM-algoritmo y en un punto en mi referencia el autor está tomando un derivado de una función con respecto a una matriz. Podría alguien explicar cómo hace uno para tomar la derivada de una función con respecto a una matriz...no entiendo la idea. Por ejemplo, supongamos que tenemos un multidimensional de la función de Gauss:
$$f(\textbf{x}, \Sigma, \boldsymbol \mu) = \frac{1}{\sqrt{(2\pi)^k |\Sigma|}}\exp\left( -\frac{1}{2}(\textbf{x}-\boldsymbol \mu)^T\Sigma^{-1}(\textbf{x}-\boldsymbol \mu)\right),$$
donde $\textbf{x} = (x_1, ..., x_n)$, $\;\;x_i \in \mathbb R$, $\;\;\boldsymbol \mu = (\mu_1, ..., \mu_n)$, $\;\;\mu_i \in \mathbb R$ y $\Sigma$ $n\times n$ matriz de covarianza.
¿Cómo se calculan las $\displaystyle \frac{\partial f}{\partial \Sigma}$? ¿Qué acerca de la $\displaystyle \frac{\partial f}{\partial \boldsymbol \mu}$ o $\displaystyle \frac{\partial f}{\partial \textbf{x}}$ (no Son estos dos, en realidad sólo casos especiales de la primera)?
Thnx por cualquier ayuda. Si usted se está preguntando dónde tengo esta pregunta en mi mente, tengo que partir de la lectura de esta referencia: (página 14)
http://ptgmedia.pearsoncmg.com/images/0131478249/samplechapter/0131478249_ch03.pdf
ACTUALIZACIÓN:
He añadido la parte concreta de mi referencia, si alguien está interesado :) me puso de relieve las partes donde me confundí, es decir, la parte donde el autor se toma la derivada con respecto a una matriz (el sigma en la imagen también es una matriz de covarianza. El autor es la estimación de los parámetros óptimos para el modelo de mezcla de Gaussianas, mediante el EM-algoritmo):
$Q(\theta|\theta_n)\equiv E_Z\{\log p(Z,X|\theta)|X,\theta_n\}$