6 votos

Posible problema de identificabilidad en el modelo jerárquico

Estoy tratando de ajustar algunos datos usando un modelo normal jerárquico

$y_i \sim N( \theta_i , \sigma ^2)$

$ \theta_i \sim N( \mu , \sigma_\theta ^2)$

$( \mu , \sigma ^2, \sigma_\theta ^2) \sim diffuse$

Encajo en este modelo y estoy consiguiendo posteriors para $ \sigma_\theta ^2$ y $ \sigma ^2$ que son casi idénticos. ¿Es esto un problema de identificación o una coincidencia? No hay otra información en los datos que se pueda usar para determinar de dónde viene la variabilidad. ¿Hay alguna manera de seguir utilizando este tipo de modelo, o simplemente no es útil sin más datos?

5voto

Shawn Puntos 8120

Su notación es un poco extraña (¿qué quiere decir con "difuso"?), pero sospecho que su anterior sobre $\sigma^2_\theta$ está llevando a un posterior impropio o casi impropio, por un lado. Ver aquí para una exposición detallada de este modelo y la especificación previa adecuada.

En resumen, sí, este modelo puede ser muy útil y probablemente debería haber alguna información sobre los parámetros de la varianza incluso en muestras relativamente pequeñas, pero hay que tener cuidado con la forma de especificarlo y ajustarlo.

Edición: Cuando escribí esta respuesta aparentemente no había leído bien el OP (ver mi comentario a la respuesta de @probabilityislogic). De todas formas tal y como está escrito este modelo los parámetros $\sigma, \sigma_\theta$ no son identificables por separado como señala @probabilityislogic. Sospecho que si se mira la distribución posterior de $\sigma^2 + \sigma_\theta^2$ sería hacer algo mucho más razonable, y si se mira el conjunto posterior de $\sigma, \sigma_\theta$ habría una fuerte correlación negativa.

Deberías volver al problema original y tratar de reformular este modelo - o bien no está planteado correctamente en el OP o bien estás manchado, creo.

4voto

patfla Puntos 1

Dado que se trata de un modelo normal-normal, no es muy difícil averiguar analíticamente lo que ocurre. Ahora bien, el argumento estándar para los priores "difusos" suele ser $\frac{1}{\sigma}$ para los parámetros de la varianza (el prior "jeffreys"). Pero podrá ver que si utilizara la priorización jeffreys para ambos parámetros, tendría una posterior impropia. Pero tenga en cuenta que la principal justificación para usar la prioridad de jeffreys es que es un parámetro de escala. Sin embargo, usted puede demostrar para su modelo, que ninguno de los dos parámetros establece la escala del problema.

Si consideramos el modelo marginal, con $\theta_{i}$ integrado. Es un resultado bien conocido que si se integra una normal con otra normal, se obtiene una normal. Así que podemos omitir la integración, y sólo calcular la expectativa y la varianza. Entonces obtenemos:

$$E(y_{i}|\mu\sigma\sigma_{\theta})=E\left[E(y_{i}|\mu\sigma\sigma_{\theta}\theta_{i})\right]=E\left[\theta_{i}|\mu\sigma\sigma_{\theta}\right]=\mu$$ $$V(y_{i}|\mu\sigma\sigma_{\theta})=E\left[V(y_{i}|\mu\sigma\sigma_{\theta}\theta_{i})\right]+V\left[E(y_{i}|\mu\sigma\sigma_{\theta}\theta_{i})\right]=\sigma^{2}+\sigma_{\theta}^{2}$$

Y así tenemos el modelo marginal:

$$(y_{i}|\mu\sigma\sigma_{\theta})\sim N(\mu,\sigma^{2}+\sigma_{\theta}^{2})$$

Y esto muestra un problema de identificabilidad con este modelo - por lo que los datos no pueden distinguir entre las dos varianzas, sólo puede dar información sobre su suma. Es posible que usted haya podido ver esto intuitivamente. Por ejemplo, siempre podemos tomar $\theta_{i}=y_{i}$ para todos $i$ y, por lo tanto, esto establecerá $\sigma=0$ . Como alternativa, podemos establecer $\theta_{i}=\mu$ para todos $i$ y esto fijará $\sigma_{\theta}=0$ . Ambos escenarios serán indistinguibles por los datos - en el sentido de que si yo generara dos conjuntos de datos, uno del primer caso, y otro del segundo (pero asegurando que $\sigma^{2}+\sigma_{\theta}^{2}$ fuera el mismo en ambos casos), no se podría saber de qué conjunto de datos procede cada caso. Esto sugiere que es fundamentalmente la suma la que establece la escala y por ello debemos aplicar jeffreys antes del parámetro $\tau^{2}=\sigma^{2}+\sigma_{\theta}^{2}$ . Supongamos ahora que $\tau^{2}$ se conociera, habría pensado en una elección no informativa del previo para $\sigma^{2}$ sería uniforme entre $0$ y $\tau^{2}$ (para una elección más informativa utilizaría una distribución beta re-escalada sobre este rango). Así que tenemos la prioridad:

$$p(\tau^{2},\sigma^{2})\propto\frac{1}{\tau^{2}}\frac{I(0<\sigma^{2}<\tau^{2})}{\tau^{2}}$$

Si hacemos el cambio de variables a $\sigma^{2},\tau^{2}\to\sigma,\sigma_{\theta}$ para que. Entonces, obtenemos:

$$p(\sigma_{\theta},\sigma)\propto\frac{1}{(\sigma^{2}+\sigma_{\theta}^{2})^{2}}|\frac{\partial\sigma^{2}}{\partial\sigma}\frac{\partial\tau^{2}}{\partial\sigma_{\theta}}-\frac{\partial\sigma^{2}}{\partial\sigma_{\theta}}\frac{\partial\tau^{2}}{\partial\sigma}| =\frac{2\sigma\sigma_{\theta}}{(\sigma^{2}+\sigma_{\theta}^{2})^{2}}$$

Obsérvese que la no identificabilidad se preserva en este prior porque es simétrico en sus argumentos. Otra simetría no tan obvia es que si usted integrara cualquiera de los parámetros de varianza, se quedaría con la prioridad de Jeffreys para el otro:

$$\int_{0}^{\infty}\frac{2\sigma\sigma_{\theta}}{(\sigma^{2}+\sigma_{\theta}^{2})^{2}}d\sigma=\frac{1}{\sigma_{\theta}}$$

Por lo tanto, todo lo que se requiere para introducir es el rango previo para uno de los parámetros, ya que esto evitará que se metan en problemas con priores inadecuados. Llame a esto $0<L_{\sigma}<\sigma<U_{\sigma}<\infty$ . Entonces es fácil muestrear de la densidad conjunta utilizando el método de la FCD inversa, ya que tenemos:

$$F_{\sigma}(x)=\frac{\log\left(\frac{x}{L_{\sigma}}\right)}{\log\left(\frac{U_{\sigma}}{L_{\sigma}}\right)}\implies F^{-1}_{\sigma}(p)=\frac{U_{\sigma}^{p}}{L_{\sigma}^{p-1}}$$ $$F_{\sigma_{\theta}|\sigma}(y|x)=1-\frac{x^{2}}{y^{2}+x^{2}}\implies F^{-1}_{\sigma_{\theta}|\sigma}(p|x)=x\sqrt{\frac{p}{1-p}}$$

Así que se muestrean dos variables aleatorias uniformes independientes $q_{1b},q_{2b}$ y luego su valor aleatorio de $\sigma^{(b)}=U_{\sigma}^{q_{1b}}L_{\sigma}^{1-q_{1b}}$ y su valor aleatorio de $\sigma^{(b)}_{\theta}=U_{\sigma}^{q_{1b}}L_{\sigma}^{1-q_{1b}}\sqrt{\frac{q_{2b}}{1-q_{2b}}}$ . Combina esto con el habitual plano previo para $-\infty<L_{\mu}<\mu<U_{\mu}<\infty$ generada por una tercera variable aleatoria uniforme $\mu^{(b)}=L_{\mu}+q_{3b}(U_{\mu}-L_{\mu})$ y tienes todos los ingredientes para hacer una simulación posterior monte carlo - ten en cuenta que esto es mucho mejor que el "muestreo de Gibbs" porque cada simulación es independiente, por lo que no hay necesidad de esperar a la convergencia (y también menos necesidad de un gran número de simulaciones) - y estás tratando con priores adecuados - por lo que la divergencia es imposible (sin embargo algunos momentos pueden o no existir, pero todos los cuantiles existen).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X