20 votos

¿Cómo calcular la perplejidad de una retención con la Asignación de Dirichlet Latente?

Estoy confundido sobre cómo calcular la perplejidad de una muestra retenida cuando se hace la Asignación de Dirichlet Latente (LDA). Los artículos sobre el tema lo repasan, lo que me hace pensar que me estoy perdiendo algo obvio...

La perplejidad se considera una buena medida de rendimiento para el LDA. La idea es mantener una muestra retenida, entrenar el LDA con el resto de los datos y calcular la perplejidad de la muestra retenida.

La perplejidad podría venir dada por la fórmula:

$per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} $

(Tomado de Recuperación de imágenes en bases de datos de imágenes a gran escala, Horster et al .)

Aquí $M$ es el número de documentos (en la muestra de prueba, presumiblemente), $\mathbb{w}_d$ representa las palabras del documento $d$ , $N_d$ el número de palabras del documento $d$ .

No me queda claro cómo calcular de forma sensata $p(\mathbb{w}_d)$ ya que no tenemos mezclas de temas para los documentos retenidos. Lo ideal sería integrar la prioridad Dirichlet para todas las posibles mezclas de temas y utilizar los multinomios de temas que hemos aprendido. Sin embargo, calcular esta integral no parece una tarea fácil.

Como alternativa, podríamos intentar aprender una mezcla de temas óptima para cada documento retenido (dados nuestros temas aprendidos) y utilizarla para calcular la perplejidad. Esto sería factible, pero no es tan trivial como parecen sugerir trabajos como los de Horter et al y Blei et al, y no me queda claro que el resultado sea equivalente al caso ideal anterior.

16voto

Matt Puntos 211

Esto es algo que a menudo se pasa por alto.

Algunas personas están haciendo algo un poco descarado: retener una proporción de las palabras en cada documento, y dar el uso de probabilidades predictivas de estas palabras retenidas dadas las mezclas documento-tema así como las mezclas tema-palabra. Obviamente, esto no es lo ideal, ya que no se evalúa el rendimiento de los documentos retenidos.

Para hacerlo correctamente con los documentos retenidos es necesario, como se ha sugerido, "integrar sobre la prioridad Dirichlet para todas las posibles mezclas de temas". http://people.cs.umass.edu/~wallach/talks/evaluation.pdf repasa algunos métodos para abordar esta integral un poco desagradable. De hecho, estoy a punto de intentar ponerlo en práctica yo mismo, ¡así que buena suerte!

1voto

Jerry Puntos 477

Sabemos que los parámetros del LDA se estiman a través de la Inferencia Variacional. Así que

$\log p(w|\alpha, \beta) = E[\log p(\theta,z,w|\alpha,\beta)]-E[\log q(\theta,z)] + D(q(\theta,z)||p(\theta,z))$ .

Si su distribución variacional es suficientemente igual a la distribución original, entonces $D(q(\theta,z)||p(\theta,z)) = 0$ . Así que, $\log p(w|\alpha, \beta) = E[\log p(\theta,z,w|\alpha,\beta)]-E[\log q(\theta,z)]$ que es la probabilidad.

$\log p(w|\alpha, \beta)$ se aproxima a la probabilidad que obtuvo de la Inferencia Variacional.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X