10 votos

¿Por qué perdemos conjugacy al asumir desconocido $\mu$ y desconocido $\sigma^2$ en una distribución normal?

Modelo:

El siguiente modelo corresponde a muestras extraídas a partir de una distribución Gaussiana con desconocidos media y varianza desconocida: \begin{align} x | \mu, \sigma^2 &\sim \mathcal{N}(\mu, \sigma^2 )\\ \mu | \mu_0, \sigma_0^2 &\sim \mathcal{N}(\mu_0, \sigma_0^2)\\ \sigma^2 | \alpha, \beta &\sim Inverse Gamma(\alpha, \beta) \end{align} graghicalmodel

Tarea:

Quiero inferir tanto $\mu$ $\sigma^2$

Inferencia:

Los condicionales son: \begin{align} p(\mu | \sigma^2, x) &\propto_\mu p(x | \mu, \sigma^2) p(\mu | \mu_0, \sigma_0^2)\\ p(\sigma^2 | \mu) &\propto_{\sigma^2} p(x | \mu, \sigma^2) p(\sigma^2 | \alpha, \beta) \end{align}

Ya que en la parte superior de la ecuación tenemos dos Normales (que son conjugado con respecto a $\mu$), podemos fácilmente obtener la condicional, que es una distribución Normal.

Ya que en la parte inferior de la ecuación tenemos una normal e Inversa Gamma (que son conjugado con respecto a $\sigma^2$), podemos fácilmente obtener la condicional, que es Inversa y Gamma.

Y ya podemos obtener la condicional, podemos Gibbs de la muestra de ambos para obtener su marginales posteriores $p(\mu | x) $$p(\sigma^2 | x)$.

Pregunta:

Veo que para evitar la pérdida de conjugacy $1/\sigma_0$ es forzado a ser $\rho/\sigma$ (ver Michael Jordan notas o de Rasmussen papel sobre el DP-GMM que estoy tratando de implementar).

Pero ¿por qué estamos perdiendo conjugacy? Por qué no puedo hacer este muestreo de Gibbs el uso de los condicionales de arriba? Lo que me estoy perdiendo?

EDITAR:

Me sale que la articulación posterior de $\mu, \sigma^2$: \begin{align} p(\mu, \sigma^2 | x) \propto p(\mu | \mu_0, \sigma_0) p(\sigma^2 | \alpha, \beta) p (x | \mu, \sigma) \end{align}

no puede ser calculado a partir del producto de los dos condicional posteriores arriba. Pero me pregunto si debo utilizar este conjunto posterior, en lugar de la persona posteriores se explicó anteriormente.

3voto

Andy Jones Puntos 1165

Intuitivamente, es debido a que la varianza se define en términos de la media. Así que si el experimental media de $\bar x$ se encuentra para ser un largo camino de $\mu_0$, que aumenta la posterior estimación de $\sigma^2$.

Un poco más de rigor - y me estoy tomando esto desde MLAPP 4.6.3.7 - suponga que usted tiene un $\text{NI}\chi^2(\mu_0, \kappa_0, \sigma_0, \nu_0)$ anterior (que es sólo un reajuste de parámetros de un NIG antes), donde $\kappa_0, \nu_0$ codificar los puntos fuertes de la antes de la media y la varianza, respectivamente. A continuación, la parte posterior de la hyperparameter para $\sigma^2$ es

$$ \sigma^2_N = \frac{1}{\nu_0 + N} \left(\nu_0\sigma^2_0 + Ns^2 + \frac{N\kappa_0}{\kappa_0 + N}(\mu_0 - \bar x)^2\right)$$

donde $s^2$ es la varianza experimental. Podemos libremente reescribir esto como

$$ \begin{align} \sigma^2_N = \frac{1}{\nu_0 + N} \left(\nu_0 \times \text{contribution from the prior} \\ + N\times \text{contribution from the experiment} \\ + \frac{N\kappa_0}{\kappa_0 + N}\times \text{uncertainty in %#%#%}\right) \end{align}$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X