2 votos

Actualización de los parámetros de peso a variable aleatoria en las mezclas gaussianas

En un modelo de mezcla gaussiana modelamos una densidad como:

p(x|π,μ,σ)=πiN(x|μi,σi)p(x|π,μ,σ)=πiN(x|μi,σi) [1]

donde π,μπ,μ y σσ son parámetros.

Me gustaría saber si el siguiente modelo es de alguna utilidad / tiene un nombre.

Supongamos que πDirichlet(α)πDirichlet(α) para que los pesos de la gaussiana se conviertan en una variable aleatoria. Entonces en lugar de [1] tenemos:

p(x|α,μ,σ)=dπp(π|α)πiN(x|μi,σi)p(x|α,μ,σ)=dπp(π|α)πiN(x|μi,σi) [2]

¿Tiene algún sentido utilizar [2] en lugar de [1] en algún escenario? ¿Tiene esta operación algún sentido en algún entorno?

1voto

replay Puntos 133

Tratando de responder al comentario de Xi'an, para comprobar si estoy entendiendo su comentario. Por lo que estoy entendiendo él quiere decir que la actualización ππ a la variable aleatoria tendría el significado de modelar nuestra incertidumbre de ππ pero no el proceso de muestreo de los puntos de datos. Trato de escribir esto mejor para el ejercicio.

En la configuración estándar, cuando ajustamos una mezcla gaussiana el ππ son parámetros. Supongamos que μμ y σσ fijada aquí y supongamos que tenemos MM muestras. En la configuración habitual, el algoritmo EM encuentra la estimación de máxima probabilidad:

πMLE=argmaxπ logL(x|π)πMLE=argmaxπ logL(x|π)

Ahora, en lugar de tratar ππ como parámetro podemos convertirlo en una variable aleatoria. Para ello necesitamos definir su distribución de probabilidad y su relación con xx . En términos matemáticos necesitamos:

  • P(x|π)P(x|π) que tenemos;

  • A priori P(π)P(π) ;

Para ello introducimos un parámetro αα que define la prioridad como una distribución Dirchlet y llegar al modelo gráfico:

enter image description here

que define completamente la articulación P(x,π|α)P(x,π|α) .

¿Qué hemos perdido/ganado con respecto a la MLE?

  1. Aún así, todos los valores de ππ son posibles/se tienen en cuenta. Si condicionamos el valor de ππ tenemos P(x|π,α)=P(x|π)P(x|π,α)=P(x|π) . Esta es exactamente la probabilidad paramétrica que teníamos antes ;

  2. Aún así podemos hacer inferencia del valor de ππ mediante la estimación de la posterior P(π|x,α)P(π|x,α) ;

  3. Como inconveniente, hemos introducido un parámetro αα que no estaba presente antes. Tal vez tendría algún sentido estimar αα maximizando la probabilidad marginal:

S(α)=dπP(π|α)P(x|π)S(α)=dπP(π|α)P(x|π)

aunque este enfoque parece suponer que la incertidumbre en ππ está relacionado con el proceso de muestreo de xx . Tengo la impresión de que de esta manera mezclaríamos "incertidumbres" y "probabilidades de muestreo", pero quizás estos conceptos están tan interrelacionados que se pueden mezclar.

En realidad este enfoque ("máxima probabilidad marginal") en cierto sentido está haciendo que el ππ las variables desaparecen de la forma descrita en el mensaje original (raro...)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X