9 votos

Combinación de métodos variacionales y Bayes empírico

Supongamos que tengo un trabajo posterior de $p(z, \theta | y, \eta)$ $y$ datos observados, $z$ son variables ocultas y $\theta$ son parámetros, y $\eta$ es un vector de hyperparameters. Me la construcción de un campo medio de aproximación a la utilización posterior de coordenadas de ascenso, es decir, $$ q(z) \consigue \exp\left\{E_q(\log p(z, \theta | y, \eta) | z) + \mbox{const}\right\} \\ q(\theta) \consigue \exp\left\{E_q(\log p(z, \theta | y, \eta) | \theta) + \mbox{const}\right\} $$ donde $\mbox{const}$ hace que cada integrar a $1$. Iterar hasta la convergencia. Mi pregunta es, si yo quiero hacer empírico de Bayes, y (aproximadamente) el perfil $\eta$, ¿es válido sólo aumentar esta con un EM paso $$ \eta \consigue \arg \max_\eta E_q \log(p(z, \theta | y, \eta))? $$ Basado en la evidencia límite inferior $$ \log p(y | \eta) \ge E_q \log(p(z, \theta | y, \eta)) - E_q \log(p(z, \theta)) $$ me parece que debería ser capaz de salirse con la suya; la optimización del límite inferior $\eta$ es exactamente la propuesta de EM el paso, así que todavía estoy haciendo coordinar ascenso en el límite inferior.

Sospecho que, si esto funciona, es obvio que para las personas que variacional de inferencia con regularidad. Desde variacional métodos son rápidos, mi pensamiento es que tal vez yo podría hacer esto para establecer hyperparameters antes de lanzarse en un muestreador de Gibbs para una exacta (hasta MCMC error) inferencia.

Actualización: he jugado con esto un poco y se encontró que la adición de la EM paso puede trabajar muy bien, pero en algunas situaciones parece aumentar la sensibilidad a las malas local optima en el variacional algoritmo. Inicializaciones de variacional parámetros que normalmente parecen funcionar bien, no. Si yo en cambio solo tiro en la EM paso cada par de iteraciones que funciona mejor, pero entonces, por supuesto que ralentizar la convergencia. Un método que funciona muy bien es para "quemar" el variacional algoritmo usando un método que me de confianza y, a continuación, agregar la EM paso cada iteración a partir de entonces. Estoy añadiendo una recompensa porque todavía estoy buscando algunos buenos consejos generales.

1voto

Arve Puntos 1056

Una manera de decidir cómo ejecutar variacional MLE es mirar cómo los expertos hacerlo.

En Blei la LDA código (http://www.cs.princeton.edu/~blei/lda-c/lda-c-dist.tgz), dentro de la "run_em", los "lda_inference función" (dentro de "doc_e_step") repetidamente maximiza con respecto a cada una de las $q$ distribución hasta la convergencia. Después de la $q$'s convergen, el algoritmo maximiza con respecto a los parámetros de "lda_mle".

La justificación de este orden es que al maximizar con respecto a la $q$'s hasta la convergencia de obtener una mejor estimación de las expectativas de variables ocultas (o marginados de los parámetros necesarios para maximizar con respecto a los parámetros.

En la norma EM, por supuesto, las expectativas que se computing son exacta - que es la principal diferencia entre el estándar y variacional EM - así que esto no es una preocupación.

Desde la perspectiva de la EM como un algoritmo de maximización sobre la función de $F(q,\theta)$ (www.cs.toronto.edu/~radford/ftp/emk.pdf) o desde la perspectiva de la maximización de la evidencia límite inferior, no está claro que la maximización de más de la q hasta la convergencia es mejor en términos de cómputo de la eficiencia debido a que el algoritmo va a llegar a un máximo local no importa el orden de la maximización de los pasos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X