Estoy tratando de derivar la actualización de ecuaciones por el conjugado a la distribución Dirichlet, como se indica aquí: http://mathoverflow.net/questions/20399/conjugate-prior-of-the-dirichlet-distribution
Sin embargo, el parámetro de actualización de la ecuación para calcular no coincide con el indicado allí.
Mi derivación se muestra a continuación: \begin{align} f({\theta}|{\alpha}) &= Dir({\theta}|{\alpha})\\ &=\frac{1}{B({\alpha})}\exp(\phi({\alpha})^{T}u({\theta})) \end{align} donde, \begin{align} \phi({\alpha})^{T} &= [\alpha_1-1,\cdots,\alpha_K-1]\\ u({\theta}) &= [\ln(\theta_1),\cdots,\ln(\theta_K)]^{T}\\ B({\alpha}) &= \frac{\prod_{i=1}^{K}\Gamma(\alpha_i)}{\Gamma\left(\sum_{i=1}^{K}\alpha_i\right)} \end{align}
Por lo tanto, \begin{align} f({\theta}|{\alpha}) &= \frac{1}{B({\alpha})}\exp\left(\sum_{i=1}^{K}\alpha_{i}\ln(\theta_i)-\ln(\theta_i)\right) \end{align}
La exponencial de la familia conjugada tiene forma, \begin{align} p({\alpha}|{\nu},\eta) &\propto \frac{1}{B({\alpha})^{\eta}}\exp(\phi({\alpha})^{T}{\nu})\\ &= \frac{1}{B({\alpha})^{\eta}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\nu_{i}-\sum_{i=1}^{K}\nu_i\right)\\ &\propto \frac{1}{B({\alpha})^{\eta}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\nu_{i}\right) \end{align}
Ahora la posterior actualización en ${\alpha}$${\theta}$, \begin{align} p({\alpha}|{\theta},{\nu},\eta) &\propto p({\alpha},{\theta}|{\nu},\eta)\\ &= f({\theta}|{\alpha})p({\alpha}|{\nu},\eta)\\ &\propto \left[\frac{1}{B({\alpha})}\exp\left(\sum_{i=1}^{K}\alpha_{i}\ln(\theta_i)-\ln(\theta_i)\right)\right]\times\nonumber\\ &\phantom{{}\propto} \left[\frac{1}{B({\alpha})^{\eta}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\nu_{i}\right) \right]\\ &= \frac{1}{B({\alpha})^{\eta+1}}\exp\left(\sum_{i=1}^{K}\alpha_{i}\ln(\theta_i) + \alpha_{i}\nu_{i}-\ln(\theta_i)\right)\\ \end{align}
Por lo tanto, me da la ${\eta^{t+1}} = {\eta^t} + 1$ actualización. Sin embargo, la actualización en $\nu$ no coincide. Si nos deshiciéramos de la $-\ln(\theta_i)$, obtendríamos actualización de ${\nu_i^{t+1}} = {\nu_i^t} + \ln(\theta_i)$, lo que no coincide con la propuesta de ${\nu_i^{t+1}} = {\nu_i^t} - \ln(\theta_i)$.
Y una de seguimiento: hay un significado intuitivo detrás de ${\eta}$ $\nu$ en este conjugado? ${\eta}$ parece indicar que el nivel de confianza en el estado, y $\nu$ impone la asimetría, pero más de alguna discusión sobre este sería apreciada.