He leído en alguna parte que el método Bayes Variacional es una generalización del algoritmo EM. De hecho, las partes iterativas de los algoritmos son muy similares. Para comprobar si el algoritmo EM es una versión especial del Bayes Variacional, he probado lo siguiente:
-
$Y$ son datos, $X$ es la colección de variables latentes y $\Theta$ son los parámetros. En Bayes Variacional podemos hacer una aproximación tal que $P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)$ . Donde $Q$ son distribuciones más simples y manejables.
-
Dado que el algoritmo EM encuentra una estimación puntual MAP, pensé que el Bayes Variacional puede converger a EM si utilizo una Función Delta tal que: $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ . $\Theta_1$ es la primera estimación de los parámetros como se suele hacer en EM.
-
Cuando $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ se da, $Q^1_X(X)$ que minimiza la divergencia KL se encuentra mediante la fórmula $$Q^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX}$$ La fórmula anterior se simplifica en $Q^1_X(X)=P(X|\Theta^1,Y)$ Este paso resulta ser el equivalente al paso de Expectativa del algoritmo EM.
Pero no puedo derivar el paso de maximización como la continuación de esto. En el siguiente paso tenemos que calcular $Q^2_\Theta(\Theta)$ y según la regla de iteración de Bayes Variacional esto es:
$$Q^2_\Theta(\Theta)=\frac{\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])}{\int\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])d\Theta}$$
¿Están los algoritmos VB y EM realmente conectados de esta manera? ¿Cómo podemos derivar EM como un caso especial del Bayes Vacional, es mi enfoque verdadero?