Dado que se trata de un modelo normal-normal, no es muy difícil averiguar analíticamente lo que ocurre. Ahora bien, el argumento estándar para los priores "difusos" suele ser $\frac{1}{\sigma}$ para los parámetros de la varianza (el prior "jeffreys"). Pero podrá ver que si utilizara la priorización jeffreys para ambos parámetros, tendría una posterior impropia. Pero tenga en cuenta que la principal justificación para usar la prioridad de jeffreys es que es un parámetro de escala. Sin embargo, usted puede demostrar para su modelo, que ninguno de los dos parámetros establece la escala del problema.
Si consideramos el modelo marginal, con $\theta_{i}$ integrado. Es un resultado bien conocido que si se integra una normal con otra normal, se obtiene una normal. Así que podemos omitir la integración, y sólo calcular la expectativa y la varianza. Entonces obtenemos:
$$E(y_{i}|\mu\sigma\sigma_{\theta})=E\left[E(y_{i}|\mu\sigma\sigma_{\theta}\theta_{i})\right]=E\left[\theta_{i}|\mu\sigma\sigma_{\theta}\right]=\mu$$ $$V(y_{i}|\mu\sigma\sigma_{\theta})=E\left[V(y_{i}|\mu\sigma\sigma_{\theta}\theta_{i})\right]+V\left[E(y_{i}|\mu\sigma\sigma_{\theta}\theta_{i})\right]=\sigma^{2}+\sigma_{\theta}^{2}$$
Y así tenemos el modelo marginal:
$$(y_{i}|\mu\sigma\sigma_{\theta})\sim N(\mu,\sigma^{2}+\sigma_{\theta}^{2})$$
Y esto muestra un problema de identificabilidad con este modelo - por lo que los datos no pueden distinguir entre las dos varianzas, sólo puede dar información sobre su suma. Es posible que usted haya podido ver esto intuitivamente. Por ejemplo, siempre podemos tomar $\theta_{i}=y_{i}$ para todos $i$ y, por lo tanto, esto establecerá $\sigma=0$ . Como alternativa, podemos establecer $\theta_{i}=\mu$ para todos $i$ y esto fijará $\sigma_{\theta}=0$ . Ambos escenarios serán indistinguibles por los datos - en el sentido de que si yo generara dos conjuntos de datos, uno del primer caso, y otro del segundo (pero asegurando que $\sigma^{2}+\sigma_{\theta}^{2}$ fuera el mismo en ambos casos), no se podría saber de qué conjunto de datos procede cada caso. Esto sugiere que es fundamentalmente la suma la que establece la escala y por ello debemos aplicar jeffreys antes del parámetro $\tau^{2}=\sigma^{2}+\sigma_{\theta}^{2}$ . Supongamos ahora que $\tau^{2}$ se conociera, habría pensado en una elección no informativa del previo para $\sigma^{2}$ sería uniforme entre $0$ y $\tau^{2}$ (para una elección más informativa utilizaría una distribución beta re-escalada sobre este rango). Así que tenemos la prioridad:
$$p(\tau^{2},\sigma^{2})\propto\frac{1}{\tau^{2}}\frac{I(0<\sigma^{2}<\tau^{2})}{\tau^{2}}$$
Si hacemos el cambio de variables a $\sigma^{2},\tau^{2}\to\sigma,\sigma_{\theta}$ para que. Entonces, obtenemos:
$$p(\sigma_{\theta},\sigma)\propto\frac{1}{(\sigma^{2}+\sigma_{\theta}^{2})^{2}}|\frac{\partial\sigma^{2}}{\partial\sigma}\frac{\partial\tau^{2}}{\partial\sigma_{\theta}}-\frac{\partial\sigma^{2}}{\partial\sigma_{\theta}}\frac{\partial\tau^{2}}{\partial\sigma}| =\frac{2\sigma\sigma_{\theta}}{(\sigma^{2}+\sigma_{\theta}^{2})^{2}}$$
Obsérvese que la no identificabilidad se preserva en este prior porque es simétrico en sus argumentos. Otra simetría no tan obvia es que si usted integrara cualquiera de los parámetros de varianza, se quedaría con la prioridad de Jeffreys para el otro:
$$\int_{0}^{\infty}\frac{2\sigma\sigma_{\theta}}{(\sigma^{2}+\sigma_{\theta}^{2})^{2}}d\sigma=\frac{1}{\sigma_{\theta}}$$
Por lo tanto, todo lo que se requiere para introducir es el rango previo para uno de los parámetros, ya que esto evitará que se metan en problemas con priores inadecuados. Llame a esto $0<L_{\sigma}<\sigma<U_{\sigma}<\infty$ . Entonces es fácil muestrear de la densidad conjunta utilizando el método de la FCD inversa, ya que tenemos:
$$F_{\sigma}(x)=\frac{\log\left(\frac{x}{L_{\sigma}}\right)}{\log\left(\frac{U_{\sigma}}{L_{\sigma}}\right)}\implies F^{-1}_{\sigma}(p)=\frac{U_{\sigma}^{p}}{L_{\sigma}^{p-1}}$$ $$F_{\sigma_{\theta}|\sigma}(y|x)=1-\frac{x^{2}}{y^{2}+x^{2}}\implies F^{-1}_{\sigma_{\theta}|\sigma}(p|x)=x\sqrt{\frac{p}{1-p}}$$
Así que se muestrean dos variables aleatorias uniformes independientes $q_{1b},q_{2b}$ y luego su valor aleatorio de $\sigma^{(b)}=U_{\sigma}^{q_{1b}}L_{\sigma}^{1-q_{1b}}$ y su valor aleatorio de $\sigma^{(b)}_{\theta}=U_{\sigma}^{q_{1b}}L_{\sigma}^{1-q_{1b}}\sqrt{\frac{q_{2b}}{1-q_{2b}}}$ . Combina esto con el habitual plano previo para $-\infty<L_{\mu}<\mu<U_{\mu}<\infty$ generada por una tercera variable aleatoria uniforme $\mu^{(b)}=L_{\mu}+q_{3b}(U_{\mu}-L_{\mu})$ y tienes todos los ingredientes para hacer una simulación posterior monte carlo - ten en cuenta que esto es mucho mejor que el "muestreo de Gibbs" porque cada simulación es independiente, por lo que no hay necesidad de esperar a la convergencia (y también menos necesidad de un gran número de simulaciones) - y estás tratando con priores adecuados - por lo que la divergencia es imposible (sin embargo algunos momentos pueden o no existir, pero todos los cuantiles existen).