6 votos

Estimación por máxima verosimilitud de la media de Dirichlet

Consideremos el problema de calcular una estimación de Máxima Verosimilitud de los parámetros de una distribución Dirichlet finita, dado un conjunto de observaciones multinomiales (vectores de probabilidad) que se supone han sido muestreadas de una Dirichlet. El siguiente artículo proporciona un algoritmo iterativo de punto fijo para estimar la media y la precisión de la Dirichlet por separado:

Minka, Thomas. Estimación de una distribución Dirichlet. (2000): 3.

El algoritmo para estimar la media $\mathbf{m}$ , dada una precisión fija $s$ se resume de la siguiente manera:

  1. Estimar los parámetros de concentración completa $\pmb{\alpha}=s\mathbf{m}$ invirtiendo la función digamma.
  2. $\forall\, k$ , set $m_k^{new} = \frac{\alpha_k}{\sum_j \alpha_j}$ .
  3. Repetir hasta la convergencia.

¿Por qué tenemos que recurrir a un algoritmo iterativo para encontrar la media? ¿No es la media de nuestros vectores de datos observados una estimación precisa de la media? Además, ¿no es también cierto que el valor esperado de la media de un conjunto de muestras de un Dirichlet es la media del propio Dirichlet?

Se agradece cualquier idea al respecto.

8voto

Andre Miller Puntos 182

Supongamos que $\mathbf p_1, \ldots, \mathbf p_n$ son iid $\operatorname{Dirichlet}(s \mathbf m)$ . Si te he entendido bien, tu pregunta es "¿por qué utilizar un esquema iterativo cuando $\hat {\mathbf m} = \frac 1 N \sum_{i = 1} ^ N \mathbf p_i$ funciona?" Tienes razón en que es un estimador razonable. Pero no es el estimador de máxima verosimilitud, ¡que es lo que nos interesa! La probabilidad de Dirichlet es $$ L_i(\pmb \alpha) = \frac{\Gamma(\sum_k \alpha_k)}{\prod_k\Gamma(\alpha_k)} \prod_k p_{ik}^{\alpha_k - 1} $$ por lo que nuestro objetivo es maximizar $\prod_i L_i (\pmb \alpha)$ en $\pmb \alpha$ Una vez hecho esto, podemos obtener la estimación de máxima verosimilitud de $\mathbf m$ por medio de la normalización. Pero es fácil ver que la probabilidad es una función de $\frac 1 N \sum_i \log \mathbf p_i$ en lugar de $\frac 1 N \sum_i \mathbf p_i$ (Estoy usando $\log$ elemental aquí). En cierto sentido, podríamos pensar en $\log \mathbf p_i$ como la "escala adecuada" de los datos -al menos, para la distribución Dirichlet- en lugar de la no transformada $\mathbf p_i$ .

Por lo tanto, creemos que la MLE no es $\frac 1 N \sum_i \mathbf p_i$ sino que es una función complicada de $\frac 1 N \sum_i \log \mathbf p_i$ . La pregunta ahora es "¿por qué utilizar el MLE en lugar del estimador fácil?". Bueno, tenemos algunos teoremas que dicen que el MLE tiene ciertas propiedades de optimalidad. Así, obtenemos un estimador más eficiente con el MLE, aunque $\frac 1 N \sum_i \mathbf p_i$ puede seguir siendo útil como punto de partida para el algoritmo iterativo. Ahora, no estoy seguro de lo bueno que es el MLE aquí, teniendo en cuenta que los datos deben estar realmente distribuidos en Dirichlet para que funcione mientras que $\frac 1 N \sum \mathbf p_i$ es coherente pase lo que pase. Pero esa es otra historia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X