4 votos

Muestreo posterior del cluster vacío en GMM y Gibbs

Considere la posibilidad de realizar la inferencia a través de un muestreador de Gibbs estándar para un modelo de mezcla gaussiano estándar (GMM) con $k$ componentes que son gaussianos $$\mathcal{N}(\mu_{k}, \sigma^{2}_{k})$$ donde asumimos un clásico Normal-InverseGamma (NIG) antes $$\mu_{k}, \sigma_{k}^{2}\sim NIG(\mu_0, V_0, \alpha_0, \beta_0)$$ y ha observado algunos datos $X$ .

En cada iteración del muestreador de Gibbs, para cada componente de agrupación $k$ Sacaría los parámetros correspondientes de la posterior $$p(\mu_{k}, \sigma^{2}_{k}, | X) = NIG(\mu_n, V_n, \alpha_n, \beta_n)$$

donde los parámetros $\mu_n, V_n, \alpha_n, \beta_n$ puede derivarse por conjugación de $\mu_0, V_0, \alpha_0, \beta_0$ mirando cuántas instancias ( $n$ ) han sido asignados a la agrupación $k$ .

Supongamos ahora que no se han asignado instancias al clúster $k$ en absoluto para una determinada iteración del muestreador de Gibbs. Por lo tanto, lo correcto sería simplemente muestrear $\mu_{k}, \sigma^{2}_{k}$ del anterior $\mu_{k}, \sigma_{k}^{2}\sim NIG(\mu_0, V_0, \alpha_0, \beta_0)$ .

¿Pero qué pasa si uno no los muestrea y los mantiene "congelados" a los valores obtenidos en la última iteración a la que se ha asignado el cluster? Esto ya no me parece un muestreo de Gibbs, ¿sería todavía un MCMC de algún tipo?

1voto

Lev Puntos 2212

Una pregunta interesante. Resulta que en nuestro 1990 papel con Diebolt En este caso, hacemos algo similar modificando la probabilidad de una mezcla regular a una probabilidad que es el marginal de la probabilidad completa (lo que significa considerar las asignaciones así como las observaciones) de tal manera que ningún componente puede estar vacío o corresponder a una sola observación. La razón de esta restricción es permitir la existencia de priores inadecuados en todos los parámetros de la mezcla. El muestreador de Gibbs resultante rechaza las asignaciones en las que algún componente esté vacío o corresponda a una única observación, lo que significa mantener el vector de asignación anterior $(z_1,\ldots,z_n)$ y actualizar el vector de parámetros, casi el doble de lo que propones. Este esquema es válido contra la nueva probabilidad. Más tarde, en el año 2000, Larry Wasserman creó que este modelo produce una inferencia convergente sobre los parámetros.

Para responder más directamente a la pregunta, no creo que el hecho de no cambiar el parámetro de un componente si no se produce ninguna asignación para ese componente sea un movimiento MCMC válido. Todos los parámetros de los componentes tienen que seguir siendo los mismos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X