Estoy tratando de derivar las ecuaciones de estimación de parámetros para el Paso M de la maximización de expectativas (EM) algoritmo para una mezcla de gaussianos cuando todos los gaussianos comparten la misma matriz de covarianza $\mathbf{\Sigma}$ .
Reconocimiento de patrones y aprendizaje automático de Bishop tiene una sección sobre EM para mezclas gaussianas, e incluye una derivación del paso M cuando todas las $K$ Los gaussianos tienen diferentes matrices de covarianza $\mathbf{\Sigma_k}$ . Creo que si puedo entender bien esta derivación, puedo modificarla para conseguir lo que quiero.
Entiendo la derivación dada por Bishop para la ecuación del paso M para $\mathbf{\mu_k}$ . Sin embargo, el libro no muestra pasos detallados para la derivación del paso M para $\mathbf{\Sigma_k}$ . Cuando intenté deducirlo yo mismo calculando $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma_k}}$ y poniéndolo a 0, me he encontrado con la siguiente derivada que no sé cómo tratar:
$$ \frac{\partial}{\partial \mathbf{\Sigma_k}} \left ( (2\pi)^{-d/2}|\mathbf{\Sigma_k}|^{-1/2}e^{-\frac{1}{2}(x-\mathbf{\mu_k})^T\mathbf{\Sigma_k}^{-1}(x-\mathbf{\mu_k})}\right ) $$
Básicamente, es la derivada de la pdf gaussiana multivariante con respecto a la matriz de covarianza. ¿Cómo puedo calcular esta derivada? He calculado la derivada de la logaritmo de esta función antes al estudiar los clasificadores Gaussian Bayes, así que eso me hace pensar que he cometido un error en alguna parte.