Tratando de responder al comentario de Xi'an, para comprobar si estoy entendiendo su comentario. Por lo que estoy entendiendo él quiere decir que la actualización $\pi$ a la variable aleatoria tendría el significado de modelar nuestra incertidumbre de $\pi$ pero no el proceso de muestreo de los puntos de datos. Trato de escribir esto mejor para el ejercicio.
En la configuración estándar, cuando ajustamos una mezcla gaussiana el $\pi$ son parámetros. Supongamos que $\mu$ y $\sigma$ fijada aquí y supongamos que tenemos $M$ muestras. En la configuración habitual, el algoritmo EM encuentra la estimación de máxima probabilidad:
$\pi_{MLE}=argmax_{\pi} \ log L(\mathbf{x}|\pi)$
Ahora, en lugar de tratar $\pi$ como parámetro podemos convertirlo en una variable aleatoria. Para ello necesitamos definir su distribución de probabilidad y su relación con $x$ . En términos matemáticos necesitamos:
Para ello introducimos un parámetro $\alpha$ que define la prioridad como una distribución Dirchlet y llegar al modelo gráfico:
que define completamente la articulación $P(\mathbf{x},\pi|\alpha)$ .
¿Qué hemos perdido/ganado con respecto a la MLE?
-
Aún así, todos los valores de $\pi$ son posibles/se tienen en cuenta. Si condicionamos el valor de $\pi$ tenemos $P(\mathbf{x}|\pi,\alpha)=P(\mathbf{x}|\pi)$ . Esta es exactamente la probabilidad paramétrica que teníamos antes ;
-
Aún así podemos hacer inferencia del valor de $\pi$ mediante la estimación de la posterior $P(\pi|\mathbf{x},\alpha)$ ;
-
Como inconveniente, hemos introducido un parámetro $\alpha$ que no estaba presente antes. Tal vez tendría algún sentido estimar $\alpha$ maximizando la probabilidad marginal:
$$S(\alpha)=\int d\pi P(\pi|\alpha)P(\mathbf{x}|\pi)$$
aunque este enfoque parece suponer que la incertidumbre en $\pi$ está relacionado con el proceso de muestreo de $\mathbf{x}$ . Tengo la impresión de que de esta manera mezclaríamos "incertidumbres" y "probabilidades de muestreo", pero quizás estos conceptos están tan interrelacionados que se pueden mezclar.
En realidad este enfoque ("máxima probabilidad marginal") en cierto sentido está haciendo que el $\pi$ las variables desaparecen de la forma descrita en el mensaje original (raro...)