36 votos

Relación entre Bayes variacional y EM

He leído en alguna parte que el método Bayes Variacional es una generalización del algoritmo EM. De hecho, las partes iterativas de los algoritmos son muy similares. Para comprobar si el algoritmo EM es una versión especial del Bayes Variacional, he probado lo siguiente:

  1. $Y$ son datos, $X$ es la colección de variables latentes y $\Theta$ son los parámetros. En Bayes Variacional podemos hacer una aproximación tal que $P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)$ . Donde $Q$ son distribuciones más simples y manejables.

  2. Dado que el algoritmo EM encuentra una estimación puntual MAP, pensé que el Bayes Variacional puede converger a EM si utilizo una Función Delta tal que: $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ . $\Theta_1$ es la primera estimación de los parámetros como se suele hacer en EM.

  3. Cuando $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ se da, $Q^1_X(X)$ que minimiza la divergencia KL se encuentra mediante la fórmula $$Q^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX}$$ La fórmula anterior se simplifica en $Q^1_X(X)=P(X|\Theta^1,Y)$ Este paso resulta ser el equivalente al paso de Expectativa del algoritmo EM.

Pero no puedo derivar el paso de maximización como la continuación de esto. En el siguiente paso tenemos que calcular $Q^2_\Theta(\Theta)$ y según la regla de iteración de Bayes Variacional esto es:

$$Q^2_\Theta(\Theta)=\frac{\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])}{\int\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])d\Theta}$$

¿Están los algoritmos VB y EM realmente conectados de esta manera? ¿Cómo podemos derivar EM como un caso especial del Bayes Vacional, es mi enfoque verdadero?

29voto

Christian Hagelid Puntos 121

Su enfoque es correcto. EM es equivalente a VB bajo la restricción de que la posterior aproximada para $\Theta$ se limita a ser una masa puntual. (Esto se menciona sin pruebas en la página 337 de Análisis bayesiano de datos .) Sea $\Theta^*$ sea la ubicación desconocida de esta masa puntual: $$ Q_\Theta(\Theta) = \delta(\Theta - \Theta^*) $$ VB minimizará la siguiente divergencia KL: $$ KL(Q||P)=\int \int Q_X(X) Q_\Theta(\Theta) \ln \frac{Q_X(X) Q_\Theta(\Theta)}{P(X,Y,\Theta)} dX d\Theta \\ = \int Q_X(X) \ln \frac{Q_X(X) Q_\Theta(\Theta^*)}{P(X,Y,\Theta^*)} dX $$ El mínimo sobre $Q_X(X)$ da el paso E de EM, y el mínimo sobre $\Theta^*$ da el paso M de EM.

Por supuesto, si se evaluara realmente la divergencia KL, sería infinita. Pero eso no es un problema si se considera que la función delta es un límite.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X