13 votos

En la inferencia bayesiana, ¿por qué se eliminan algunos términos de la predicción posterior?

En Kevin Murphy Conjugar el análisis Bayesiano de la distribución Gaussiana, él escribe que la parte posterior de la distribución predictiva es

$$ p(x \a mediados D) = \int p(x \mid \theta) p(\theta \mediados de la D) d \theta $$

donde $D$ es la de datos en la que el modelo se ajuste y $x$ es invisible datos. Lo que yo no entiendo es por qué la dependencia de la $D$ desaparece en el primer término de la integral. El uso de reglas básicas de la probabilidad, yo habría esperado:

$$ \begin{align} p(a) &= \int p(a \mid c) p(c) dc \\ p(a \mid b) &= \int p(a \mid c, b) p(c \mid b) dc \\ &\downarrow \\ p(x \mid D) &= \int \overbrace{p(x \mid \theta, D)}^{\star} p(\theta \mid D) d \theta \end{align} $$

Pregunta: ¿por Qué la dependencia de la $D$ en plazo $\star$ a desaparecer?


Para lo que vale, he visto este tipo de formulación (dejar que las variables condicionales) otros lugares. Por ejemplo, en Ryan Adán Bayesiano en Línea de Changepoint Detección, escribe el posterior predictivo como

$$ p(x_{t+1} \mediados de r_t) = \int p(x_{t+1} \mid \theta) p(\theta \mid r_{t}, x_{t}) d \theta $$

donde, de nuevo, desde el $D = \{x_t, r_t\}$, yo habría esperado

$$ p(x_{t+1} \mediados de x_t, r_t) = \int p(x_{t+1} \mid \theta, x_t, r_t) p(\theta \mid r_{t}, x_{t}) d \theta $$

13voto

Johnny Puntos 151

Esto se basa en la suposición de que $x$ es condicionalmente independiente de $D$, dado $\theta$. Esta es una suposición razonable en muchos casos, porque todo lo que dice es que la formación y las pruebas de datos ($D$ e $x$, respectivamente), de manera independiente, generados a partir del mismo conjunto de parámetros desconocidos $\theta$. Dada esta suposición de independencia, $p(x|\theta,D)=p(x|\theta)$, y para el $D$ gotas de la más general de la forma que esperaba.

En el segundo ejemplo, parece que una similar en la independencia de la asunción está siendo aplicado, pero ahora (explícitamente) a través del tiempo. Estos supuestos pueden ser explícitamente afirmado en el texto, o pueden ser implícitamente claro para cualquiera que esté suficientemente familiarizado con el contexto del problema (aunque eso no significa necesariamente que en su particular ejemplos - que no estoy familiarizado con los autores fueron derecho a asumir esta familiaridad).

9voto

user203185 Puntos 11

Es debido a $x$ se supone que para ser independiente de $D$ da $\theta$. En otras palabras, todos los datos se supone que para ser yo.yo.d. a partir de una distribución normal con parámetros de $\theta$. Una vez $\theta$ se toma en cuenta el uso de la información de $D$, no hay más información que $D$ nos da un nuevo punto de datos $x$. Por lo tanto, $p(x|\theta, D) = p(x|\theta)$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X