3 votos

Derivación del paso M en el algoritmo EM para la mezcla de gaussianos

Estoy tratando de derivar las ecuaciones de estimación de parámetros para el Paso M de la maximización de expectativas (EM) algoritmo para una mezcla de gaussianos cuando todos los gaussianos comparten la misma matriz de covarianza $\mathbf{\Sigma}$ .

Reconocimiento de patrones y aprendizaje automático de Bishop tiene una sección sobre EM para mezclas gaussianas, e incluye una derivación del paso M cuando todas las $K$ Los gaussianos tienen diferentes matrices de covarianza $\mathbf{\Sigma_k}$ . Creo que si puedo entender bien esta derivación, puedo modificarla para conseguir lo que quiero.

Entiendo la derivación dada por Bishop para la ecuación del paso M para $\mathbf{\mu_k}$ . Sin embargo, el libro no muestra pasos detallados para la derivación del paso M para $\mathbf{\Sigma_k}$ . Cuando intenté deducirlo yo mismo calculando $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma_k}}$ y poniéndolo a 0, me he encontrado con la siguiente derivada que no sé cómo tratar:

$$ \frac{\partial}{\partial \mathbf{\Sigma_k}} \left ( (2\pi)^{-d/2}|\mathbf{\Sigma_k}|^{-1/2}e^{-\frac{1}{2}(x-\mathbf{\mu_k})^T\mathbf{\Sigma_k}^{-1}(x-\mathbf{\mu_k})}\right ) $$

Básicamente, es la derivada de la pdf gaussiana multivariante con respecto a la matriz de covarianza. ¿Cómo puedo calcular esta derivada? He calculado la derivada de la logaritmo de esta función antes al estudiar los clasificadores Gaussian Bayes, así que eso me hace pensar que he cometido un error en alguna parte.

4voto

Fiona Puntos 41

He encontrado la respuesta y la publico para la posteridad. Mencioné en la pregunta que el cálculo de la derivada de la logaritmo del PDF era más fácil. Resulta que esto se puede utilizar para calcular la derivada del propio PDF:

$$ \frac{\partial \ln (f)}{\partial \mathbf{\Sigma}_k} = \frac{1}{f} \frac{\partial f}{\partial \mathbf{\Sigma}_k}\\ \Rightarrow \frac{\partial f}{\partial \mathbf{\Sigma}_k} = f \cdot\frac{\partial \ln (f)}{\partial \mathbf{\Sigma}_k} $$

Además, resulta que tomando la derivada de la PDF con respecto a $\mathbf{\Sigma}^{-1}$ es más fácil y conduce a la misma respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X