Consideremos el problema de calcular una estimación de Máxima Verosimilitud de los parámetros de una distribución Dirichlet finita, dado un conjunto de observaciones multinomiales (vectores de probabilidad) que se supone han sido muestreadas de una Dirichlet. El siguiente artículo proporciona un algoritmo iterativo de punto fijo para estimar la media y la precisión de la Dirichlet por separado:
Minka, Thomas. Estimación de una distribución Dirichlet. (2000): 3.
El algoritmo para estimar la media $\mathbf{m}$ , dada una precisión fija $s$ se resume de la siguiente manera:
- Estimar los parámetros de concentración completa $\pmb{\alpha}=s\mathbf{m}$ invirtiendo la función digamma.
- $\forall\, k$ , set $m_k^{new} = \frac{\alpha_k}{\sum_j \alpha_j}$ .
- Repetir hasta la convergencia.
¿Por qué tenemos que recurrir a un algoritmo iterativo para encontrar la media? ¿No es la media de nuestros vectores de datos observados una estimación precisa de la media? Además, ¿no es también cierto que el valor esperado de la media de un conjunto de muestras de un Dirichlet es la media del propio Dirichlet?
Se agradece cualquier idea al respecto.