El papel que he encontrado aclarar con respecto a expectation-maximization es Bayesiano K-Medios como "la Maximización de la Expectativa" Algoritmo (pdf) por Welling y Kurihara.
Supongamos que tenemos un modelo probabilístico $p(x,z,\theta)$ $x$ observaciones, $z$ ocultos variables aleatorias, y un total de $\theta$ parámetros. Se nos da un conjunto de datos $D$ y se ven obligados (por poderes superiores) para establecer $p(z,\theta|D)$.
1. Muestreo de Gibbs
Podemos aproximar $p(z,\theta|D)$ por muestreo. Muestreo de Gibbs da $p(z,\theta|D)$ por la alternancia de:
$$
\theta \sim p(\theta|z,D) \\
z \sim p(z|\theta,D)
$$
2. Variacional De Bayes
En su lugar, podemos intentar establecer una distribución $q(\theta)$ $q(z)$ y minimizar la diferencia con la distribución que estamos después de $p(\theta,z|D)$. La diferencia entre las distribuciones tiene un conveniente nombre de fantasía, el KL-divergencia. Para minimizar $KL[q(\theta)q(z)||p(\theta,z|D)]$ actualizamos:
$$
q(\theta) \propto \exp (E [\log p(\theta,z,D) ]_{p(z)} ) \\
q(z) \propto \exp (E [\log p(\theta,z,D) ]_{p(\theta)} )
$$
3. Expectation-Maximization
Para venir para arriba con pleno derecho de las distribuciones de probabilidad para ambos $z$ $\theta$ pueden ser considerados extremos. ¿Por qué no en lugar de considerar una estimación de punto para uno de estos y mantener a los demás agradable y lleno de matices. En EM el parámetro de $\theta$ es establecido como un ser indigno de una distribución completa y ajustada a su MAP (maximum a Posteriori) de valor, $\theta^*$.
$$
\theta^* = \underset{\theta}{\operatorname{argmax}} E [\log p(\theta,z,D) ]_{p(z)} \\
q(z) = p(z|\theta^*,D)
$$
Aquí $\theta^* \in \operatorname{argmax}$ sería una mejor notación: el argmax operador puede devolver varios valores. Pero no vamos a ser quisquilloso. En comparación con variacional de Bayes puede ver que la corrección de la $\log$ $\exp$ no cambia el resultado, por lo que no es necesario más.
4. La Maximización De La Expectativa
No hay ninguna razón para tratar a $z$ como un niño malcriado. Podemos también utilizar las estimaciones puntuales $z^*$ para nuestras variables ocultas y dar los parámetros $\theta$ el lujo de una distribución completa.
$$
z^* = \underset{z}{\operatorname{argmax}} E [\log p(\theta,z,D) ]_{p(\theta)} \\
q(\theta) = p(\theta|z^*,D)
$$
Si nuestras variables ocultas $z$ son variables indicadoras, de repente tenemos barato de cómputo método para realizar la inferencia en el número de clústeres. Esto es en otras palabras: selección de modelo (o automático de la relevancia de la detección o imaginar otro nombre de fantasía).
5. Iteración condicional modos
Por supuesto, el niño del cartel de aproximado de inferencia es el uso de estimaciones puntuales por tanto los parámetros de $\theta$ así como las observaciones $z$.
$$
\theta^* = \underset{\theta}{\operatorname{argmax}} p(\theta,z^*,D) \\
z^* = \underset{z}{\operatorname{argmax}} p(\theta^*,z,D) \\
$$
Para ver cómo la Maximización de la Expectativa juega recomiendo el artículo. En mi opinión, la fuerza de este artículo no es sin embargo la aplicación a un $k$-medios alternativos, pero esta lúcida y concisa exposición de aproximación.