4 votos

Correlación de la distribución Dirichlet en la Asignación Latente de Dirichlet

La Asignación Latente de Dirichlet utiliza como prioridad para la distribución de temas la prioridad de Dirichlet. Sin embargo, este modelo no proporciona una correlación entre temas y por esta razón se introdujo el Modelo de Temas Correlacionados, que utiliza una distribución normal logística y proporciona esto. Estuve mirando la distribución Dirichlet y la covarianza entre las variables no es nula, por lo tanto se puede explicar la correlación. ¿Puede alguien explicarme por qué se ha hecho la "actualización" entonces?

2voto

Steve Puntos 477

Desde el documento de introducción a los modelos temáticos correlacionados (énfasis mío):

Bajo un Dirichlet, los componentes del vector de proporciones son casi independiente Esto lleva a la fuerte y poco realista suposición de que la presencia de un tema no está correlacionada con la presencia de otro.

En esencia, el Dirichlet debe tienen cierta covarianza porque los parámetros están restringidos al simplex, pero la distribución no tiene medios para expresar distribuciones con la misma media pero con covarianza diferente. De ahí el término "casi independiente" y la razón por la que los autores utilizan la normal logística:

Describe las correlaciones entre los componentes de la variable aleatoria simplificada a través de la matriz de covarianza de la distribución normal. La normal logística se estudió originalmente en el contexto del análisis de datos composicionales observados, como las proporciones de minerales en muestras geológicas. En este trabajo, ampliamos su uso a un modelo jerárquico en el que describe la composición latente de los temas asociados a cada documento.

Para un ejemplo intuitivo, consideremos un corpus sencillo con tres temas que aparecen en $\big(\frac{1}{2},\frac{1}{4},\frac{1}{4}\big)$ proporciones, pero de manera que el primer y el último tema casi nunca coexisten . Una normal logística podría capturar esta estructura de covarianza; una Dirichlet no.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X