Mientras estudio estadísticas bayesianas, de alguna manera me estoy enfrentando a un problema para entender las diferencias entre la distribución previa y la distribución predictiva previa. La distribución previa es algo fácil de entender, pero he encontrado vago comprender el uso de la distribución predictiva previa y por qué es diferente de la distribución previa.
Respuestas
¿Demasiados anuncios?Predictivo aquí significa predictivo para observaciones. La distribución previa es una distribución para los parámetros mientras que la distribución predictiva previa es una distribución para las observaciones.
Si $X$ denota las observaciones y utilizamos el modelo (o verosimilitud) $p(x \mid \theta)$ para $\theta \in \Theta$ entonces una distribución previa es una distribución para $\theta$, por ejemplo $p_\beta(\theta)$ donde $\beta$ es un conjunto de hiperparámetros. Tenga en cuenta que no hay condicionamiento en $\beta$, y por lo tanto los hiperparámetros se consideran fijos, lo cual no es el caso en modelos jerárquicos pero ese no es el punto aquí.
La distribución predictiva previa es la distribución de $X$ "promediada" sobre todos los posibles valores de $\theta$:
\begin{align*} p_\beta(x) &= \int_\Theta p(x , \theta) d\theta \\ &= \int_\Theta p(x \mid \theta) p_\beta(\theta) d\theta \end{align*}
Esta distribución es previa ya que no se basa en ninguna observación.
También podemos definir de la misma manera la distribución predictiva posterior, es decir, si tenemos una muestra $X = (X_1, \dots, X_n)$, la distribución predictiva posterior es:
\begin{align*} p_\beta(x \mid X) &= \int_\Theta p(x ,\theta \mid X) d\theta \\ &= \int_\Theta p(x \mid \theta,X) p_\beta(\theta \mid X)d\theta \\ &= \int_\Theta p(x \mid \theta) p_\beta(\theta \mid X)d\theta. \end{align*} La última línea se basa en la suposición de que la próxima observación es independiente de $X$ dado $\theta$.
Por lo tanto, la distribución predictiva posterior se construye de la misma manera que la distribución predictiva previa, pero mientras en la última ponderamos con $p_\beta(\theta)$ en la primera ponderamos con $p_\beta(\theta \mid X)$, es decir, con nuestro conocimiento "actualizado" sobre $\theta$.
Ejemplo: Beta-Binomial
Supongamos que nuestro modelo es $X \mid \theta \sim {\rm Bin}(n,\theta)$ es decir, $P(X = x \mid \theta) = \theta^x(1-\theta)^{n-x}$.
Aquí $\Theta = [0,1]$.
También asumimos una distribución previa beta para $\theta$, $\beta(a,b)$, donde $(a,b)$ es el conjunto de hiperparámetros.
La distribución predictiva previa, $p_{a,b}(x)$, es la distribución beta-binomial con parámetros $(n,a,b)$.
Esta distribución discreta da la probabilidad de obtener $k$ éxitos de $n$ ensayos dados los hiperparámetros $(a,b)$ sobre la probabilidad de éxito.
Ahora supongamos que observamos $n_1$ jugadas $(x_1, \dots, x_{n_1})$ con $m$ éxitos.
Dado que las distribuciones binomial y beta son distribuciones conjugadas tenemos: \begin{align*} p(\theta \mid X=m) &\propto \theta^m (1 - \theta)^{n_1-m} \times \theta^{a-1}(1-\theta)^{b-1}\\ &\propto \theta^{a+m-1}(1-\theta)^{n_1+b-m-1} \\ &\propto \beta(a+m,n_1+b-m) \end{align*}
Por lo tanto, $\theta \mid X$ sigue una distribución beta con parámetros $(a+m,n_1+b-m)$.
Luego, $p_{a,b}(x \mid X = m)$ también es una distribución beta-binomial pero esta vez con parámetros $(n_2,a+m,b+n_1-m)$ en lugar de $(n_2,a,b)$.
Dado una distribución previa $\beta(a,b)$ y una verosimilitud ${\rm Bin}(n,\theta)$, si observamos $m$ éxitos de $n_1$ ensayos, la distribución predictiva posterior es una beta-binomial con parámetros $(n_2,a+x,b+n_1-x)$. Tenga en cuenta que $n_2$ y $n_1$ juegan roles diferentes aquí, ya que la distribución predictiva posterior se trata de:
Dado mi conocimiento actual sobre $\theta$ después de observar $m$ éxitos de $n_1$ ensayos, es decir $\beta(n_1,a+x,n+b-x)$, ¿cuál es la probabilidad de observar $k$ éxitos de $n_2$ ensayos adicionales?
Espero que esto sea útil y claro.
Sea $Y$ una variable aleatoria que representa los datos (quizás futuros). Tenemos un modelo (paramétrico) para $Y$ con $Y \sim f(y \mid \theta), \theta \in \Theta$, $\Theta$ el espacio de parámetros. Entonces tenemos una distribución previa representada por $\pi(\theta)$. Dada una observación de $Y$, la distribución posterior de $\theta$ es $$ f(\theta \mid y) =\frac{f(y\mid\theta) \pi(\theta)}{\int_\Theta f(y\mid\theta) \pi(\theta)\; d\theta} $$ La distribución predictiva previa de $Y$ es entonces la distribución (modelada) de $Y$ marginalizada sobre la previa, es decir, integrada sobre $\pi(\theta)$: $$ f(y) = \int_\Theta f(y\mid\theta) \pi(\theta)\; d\theta $$ que es, el denominador en el teorema de Bayes anterior. Esto también se llama la distribución preposterior de $Y$. Esto te dice qué datos (es decir $Y$) esperas ver antes de aprender más sobre $\theta$. Esto tiene muchos usos, por ejemplo en el diseño de experimentos, para ver un ejemplo, ve Diseño Experimental en Pruebas de Proporciones o Intersecciones de química y estadística.
Otro uso es como una forma de entender mejor la distribución previa. Digamos que estás interesado en modelar la variación en el peso de los elefantes, y tu distribución previa conduce a una previsión previa con una probabilidad sustancial de más de 20 toneladas. Entonces podrías querer replantearte, el peso típico de los elefantes más grandes rara vez supera las 6 toneladas, por lo que una probabilidad sustancial de más de 20 toneladas parece incorrecta. Un artículo interesante en esta dirección es Gelman (que no utiliza la terminología ...)
Finalmente, los conceptos preposterior suelen no ser útiles con priors no informativas, requieren un modelado previo tomado en serio. Un ejemplo es el siguiente: Sea $Y \sim \mathcal{N}(\theta, 1)$ con una prior plana $\pi(\theta)=1$. Entonces la previsión previa de $Y$ es $$ f(y)= \int_{-\infty}^\infty \frac1{\sqrt{2\pi}} e^{-\frac12 (y-\theta)^2}\; d\theta = 1 $$ por lo que es uniforme en sí misma, por lo que no es muy útil.