2 votos

Actualización de los parámetros de peso a variable aleatoria en las mezclas gaussianas

En un modelo de mezcla gaussiana modelamos una densidad como:

$p(\mathbf{x}|\pi,\mu,\sigma)=\sum \pi_i N(\mathbf{x}|\mu_i,\sigma_i)$ [1]

donde $\pi,\mu$ y $\sigma$ son parámetros.

Me gustaría saber si el siguiente modelo es de alguna utilidad / tiene un nombre.

Supongamos que $\mathbf{\pi} \sim Dirichlet(\mathbf{\alpha})$ para que los pesos de la gaussiana se conviertan en una variable aleatoria. Entonces en lugar de [1] tenemos:

$p(\mathbf{x}|\alpha,\mu,\sigma)=\int d\mathbf{\pi} p(\mathbf{\pi} |\alpha) \sum \pi_i N(\mathbf{x}|\mu_i,\sigma_i)$ [2]

¿Tiene algún sentido utilizar [2] en lugar de [1] en algún escenario? ¿Tiene esta operación algún sentido en algún entorno?

1voto

replay Puntos 133

Tratando de responder al comentario de Xi'an, para comprobar si estoy entendiendo su comentario. Por lo que estoy entendiendo él quiere decir que la actualización $\pi$ a la variable aleatoria tendría el significado de modelar nuestra incertidumbre de $\pi$ pero no el proceso de muestreo de los puntos de datos. Trato de escribir esto mejor para el ejercicio.

En la configuración estándar, cuando ajustamos una mezcla gaussiana el $\pi$ son parámetros. Supongamos que $\mu$ y $\sigma$ fijada aquí y supongamos que tenemos $M$ muestras. En la configuración habitual, el algoritmo EM encuentra la estimación de máxima probabilidad:

$\pi_{MLE}=argmax_{\pi} \ log L(\mathbf{x}|\pi)$

Ahora, en lugar de tratar $\pi$ como parámetro podemos convertirlo en una variable aleatoria. Para ello necesitamos definir su distribución de probabilidad y su relación con $x$ . En términos matemáticos necesitamos:

  • $P(\mathbf{x}|\pi)$ que tenemos;

  • A priori $P(\pi)$ ;

Para ello introducimos un parámetro $\alpha$ que define la prioridad como una distribución Dirchlet y llegar al modelo gráfico:

enter image description here

que define completamente la articulación $P(\mathbf{x},\pi|\alpha)$ .

¿Qué hemos perdido/ganado con respecto a la MLE?

  1. Aún así, todos los valores de $\pi$ son posibles/se tienen en cuenta. Si condicionamos el valor de $\pi$ tenemos $P(\mathbf{x}|\pi,\alpha)=P(\mathbf{x}|\pi)$ . Esta es exactamente la probabilidad paramétrica que teníamos antes ;

  2. Aún así podemos hacer inferencia del valor de $\pi$ mediante la estimación de la posterior $P(\pi|\mathbf{x},\alpha)$ ;

  3. Como inconveniente, hemos introducido un parámetro $\alpha$ que no estaba presente antes. Tal vez tendría algún sentido estimar $\alpha$ maximizando la probabilidad marginal:

$$S(\alpha)=\int d\pi P(\pi|\alpha)P(\mathbf{x}|\pi)$$

aunque este enfoque parece suponer que la incertidumbre en $\pi$ está relacionado con el proceso de muestreo de $\mathbf{x}$ . Tengo la impresión de que de esta manera mezclaríamos "incertidumbres" y "probabilidades de muestreo", pero quizás estos conceptos están tan interrelacionados que se pueden mezclar.

En realidad este enfoque ("máxima probabilidad marginal") en cierto sentido está haciendo que el $\pi$ las variables desaparecen de la forma descrita en el mensaje original (raro...)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X