8 votos

Derivación de actualización conjugada de Dirichlet

Estoy tratando de derivar la actualización de ecuaciones por el conjugado a la distribución Dirichlet, como se indica aquí: http://mathoverflow.net/questions/20399/conjugate-prior-of-the-dirichlet-distribution

Sin embargo, el parámetro de actualización de la ecuación para calcular no coincide con el indicado allí.

Mi derivación se muestra a continuación: \begin{align} f({\theta}|{\alpha}) &= Dir({\theta}|{\alpha})\\ &=\frac{1}{B({\alpha})}\exp(\phi({\alpha})^{T}u({\theta})) \end{align} donde, \begin{align} \phi({\alpha})^{T} &= [\alpha_1-1,\cdots,\alpha_K-1]\\ u({\theta}) &= [\ln(\theta_1),\cdots,\ln(\theta_K)]^{T}\\ B({\alpha}) &= \frac{\prod_{i=1}^{K}\Gamma(\alpha_i)}{\Gamma\left(\sum_{i=1}^{K}\alpha_i\right)} \end{align}

Por lo tanto, \begin{align} f({\theta}|{\alpha}) &= \frac{1}{B({\alpha})}\exp\left(\sum_{i=1}^{K}\alpha_{i}\ln(\theta_i)-\ln(\theta_i)\right) \end{align}

La exponencial de la familia conjugada tiene forma, \begin{align} p({\alpha}|{\nu},\eta) &\propto \frac{1}{B({\alpha})^{\eta}}\exp(\phi({\alpha})^{T}{\nu})\\ &= \frac{1}{B({\alpha})^{\eta}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\nu_{i}-\sum_{i=1}^{K}\nu_i\right)\\ &\propto \frac{1}{B({\alpha})^{\eta}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\nu_{i}\right) \end{align}

Ahora la posterior actualización en ${\alpha}$${\theta}$, \begin{align} p({\alpha}|{\theta},{\nu},\eta) &\propto p({\alpha},{\theta}|{\nu},\eta)\\ &= f({\theta}|{\alpha})p({\alpha}|{\nu},\eta)\\ &\propto \left[\frac{1}{B({\alpha})}\exp\left(\sum_{i=1}^{K}\alpha_{i}\ln(\theta_i)-\ln(\theta_i)\right)\right]\times\nonumber\\ &\phantom{{}\propto} \left[\frac{1}{B({\alpha})^{\eta}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\nu_{i}\right) \right]\\ &= \frac{1}{B({\alpha})^{\eta+1}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\ln(\theta_i) + \alpha_{i}\nu_{i}-\ln(\theta_i)\right)\\ \end{align}

Por lo tanto, me da la ${\eta^{t+1}} = {\eta^t} + 1$ actualización. Sin embargo, la actualización en $\nu$ no coincide. Si nos deshiciéramos de la $-\ln(\theta_i)$, obtendríamos actualización de ${\nu_i^{t+1}} = {\nu_i^t} + \ln(\theta_i)$, lo que no coincide con la propuesta de ${\nu_i^{t+1}} = {\nu_i^t} - \ln(\theta_i)$.

Y una de seguimiento: hay un significado intuitivo detrás de ${\eta}$ $\nu$ en este conjugado? ${\eta}$ parece indicar que el nivel de confianza en el estado, y $\nu$ impone la asimetría, pero más de alguna discusión sobre este sería apreciada.

6voto

Lev Puntos 2212

No hay nada de malo con esta derivación \begin{align} p({\alpha}|{\theta},{\nu},\eta) &\propto p({\alpha},{\theta}|{\nu},\eta)\\ &= f({\theta}|{\alpha})p({\alpha}|{\nu},\eta)\\ &\propto \left[\frac{1}{B({\alpha})}\exp\left(\sum_{i=1}^{K}\alpha_{i}\ln(\theta_i)-\ln(\theta_i)\right)\right]\times\nonumber\\ &\phantom{{}\propto} \left[\frac{1}{B({\alpha})^{\eta}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\nu_{i}\right) \right]\\ &= \frac{1}{B({\alpha})^{\eta+1}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\ln(\theta_i) + \alpha_{i}\nu_{i}-\ln(\theta_i)\right)\\ \end{align} pero la parte $$\exp\left(-\sum_{i=1}^{K}\ln(\theta_i)\right)$$ no importa, ya que es un multiplicativo constante (en $\alpha$) plazo. Por lo tanto \begin{align} p({\alpha}|{\theta},{\nu},\eta) &\propto \frac{1}{B({\alpha})^{\eta+1}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\{\ln(\theta_i) +\nu_{i}\}\right) \end{align} En conclusión, $$\eta^\text{post}=\eta^\text{antes}+1 \qquad \nu_{i}^\text{post}=\nu_{i}^\text{antes}+\ln(\theta_i) $$ es la actualización correcta. El citado post tiene un error tipográfico, obviamente.

Para el seguimiento de la pregunta, no creo que la distribución tiene una interpretación intuitiva.

4voto

andynormancx Puntos 234

Primero de todo, exponencial de la familia de las actualizaciones son confusos en nada, pero la parametrización natural donde la regla de actualización es sólo la adición. Palo para que parametrización.

Me gustaría derivar el conjugado antes de esta manera. La idea básica es la natural de los valores de los parámetros de su conjugado antes de la distribución de $F'$ $\eta'$ (sumas de las estadísticas suficientes de su distribución original $F$). Cada observación se suma a este vector.

La suficiente estadísticas para el Dirichlet se $\log x_i$. Por lo tanto, su regla de actualización de su conjugado antes es la suma de estos junto con un parámetro extra que realiza un seguimiento de las observaciones, la suma de los valores.

Intuitivamente, este parámetro count es siempre una concentración del parámetro; el resto de parámetros son los más sensibles a pequeños valores de $x_i$. Tiene sentido que si su Dirichlet de la muestra tiene un pequeño valor de $x_i$, entonces probablemente no tiene un gran $\alpha_i$ en comparación con los otros $\alpha_i$. Lo contrario es tal vez menos verdad?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X