Estoy confundido sobre cómo calcular la perplejidad de una muestra retenida cuando se hace la Asignación de Dirichlet Latente (LDA). Los artículos sobre el tema lo repasan, lo que me hace pensar que me estoy perdiendo algo obvio...
La perplejidad se considera una buena medida de rendimiento para el LDA. La idea es mantener una muestra retenida, entrenar el LDA con el resto de los datos y calcular la perplejidad de la muestra retenida.
La perplejidad podría venir dada por la fórmula:
$per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} $
(Tomado de Recuperación de imágenes en bases de datos de imágenes a gran escala, Horster et al .)
Aquí $M$ es el número de documentos (en la muestra de prueba, presumiblemente), $\mathbb{w}_d$ representa las palabras del documento $d$ , $N_d$ el número de palabras del documento $d$ .
No me queda claro cómo calcular de forma sensata $p(\mathbb{w}_d)$ ya que no tenemos mezclas de temas para los documentos retenidos. Lo ideal sería integrar la prioridad Dirichlet para todas las posibles mezclas de temas y utilizar los multinomios de temas que hemos aprendido. Sin embargo, calcular esta integral no parece una tarea fácil.
Como alternativa, podríamos intentar aprender una mezcla de temas óptima para cada documento retenido (dados nuestros temas aprendidos) y utilizarla para calcular la perplejidad. Esto sería factible, pero no es tan trivial como parecen sugerir trabajos como los de Horter et al y Blei et al, y no me queda claro que el resultado sea equivalente al caso ideal anterior.