He leído un par de explicaciones del algoritmo EM (por ejemplo, del libro Pattern Recognition and Machine Learning de Bishop y del Primer Curso de Aprendizaje Automático de Roger y Gerolami). La derivación de EM está bien, la entiendo. También entiendo por qué el algoritmo converge a algo: en cada paso mejoramos el resultado y la probabilidad está limitada por 1,0, así que usando un hecho simple (si una función aumenta y está limitada entonces converge) sabemos que el algoritmo converge a alguna solución.
Sin embargo, ¿cómo sabemos que es un mínimo local? En cada paso estamos considerando sólo una coordenada (ya sea la variable latente o los parámetros), por lo que podríamos pasar por alto algo, como que el mínimo local requiere moverse por ambas coordenadas a la vez.
Creo que se trata de un problema similar al de la clase general de algoritmos de ascenso de colinas, de los que el EM es un ejemplo. Así que para un algoritmo general de escalada tenemos este problema para la función f(x, y) = x*y. Si empezamos desde el punto (0, 0), entonces sólo considerando ambas direcciones a la vez somos capaces de subir desde el valor 0.