Me estoy tomando una Introducción de Bayes curso y estoy teniendo algunas dificultades para la comprensión de predicción de distribuciones. Entiendo por qué son útiles y que estoy familiarizado con la definición, pero hay algunas cosas que no acabo de entender.
1) Cómo obtener el derecho de la distribución predictiva para un vector de observaciones nuevas
Supongamos que hemos construido un modelo de muestreo $p(y_i | \theta)$ para los datos y una antes de la $p(\theta)$. Suponga que las observaciones $y_i$ son condicionalmente independientes dado $\theta$.
Hemos observado que algunos de los datos de $\mathcal{D} = \{y_1, y_2, \, ... \, , y_k\}$, y actualizamos nuestra antes de $p(\theta)$ a la parte posterior de la $p(\theta | \mathcal{D})$.
Si queremos predecir un vector de nuevas observaciones $\mathcal{N} = \{\tilde{y}_1, \tilde{y}_2, \, ... \, , \tilde{y}_n\}$, creo que debemos tratar de conseguir que la parte posterior de predicción usando esta fórmula $$ p(\mathcal{N} | \mathcal{D}) = \int p(\theta | \mathcal{D}) p ( \mathcal{N} | \theta) \, \mathrm{d} \theta = \int p(\theta | \mathcal{D}) \prod_{i=1}^n p(\tilde{y}_i | \theta) \, \mathrm{d} \theta, $$ que no es igual a $$ \prod_{i=1}^n \int p(\theta | \mathcal{D}) p(\tilde{y}_i | \theta) \, \mathrm{d} \theta, $$ para la predicción de las observaciones no son independientes, la derecha?
Decir que $\theta | \mathcal{D} \sim$ Beta($a,b$) y $p(y_i | \theta) \sim$ Binomial($n, \theta$) por un determinado $n$. En este caso, si quería simular 6 $\tilde{y}$, si lo entiendo correctamente, sería malo para simular 6 dibuja de forma independiente de la Beta-Binomial la distribución que corresponde a la parte posterior de predicción para una sola observación. Es esto correcto? No sé cómo interpretar que las observaciones no son independientes de forma marginal, y no estoy seguro de entender esto correctamente.
La simulación de la posterior predictives
Muchas veces cuando nos simular los datos de la parte posterior predictivo podemos seguir este esquema:
Para $b$ a partir del 1 de a $B$:
1) Muestra $\theta^{(b)}$$p(\theta | \mathcal{D})$.
2) Luego simular nuevos datos $\mathcal{N}^{(b)}$$p(\mathcal{N} | \theta^{(b)})$.
No sé bien cómo probar este esquema funciona, aunque parece intuitivo. También, ¿tiene un nombre? Traté de buscar una justificación y he probado diferentes nombres, pero no he tenido suerte.
Gracias!