13 votos

Comprensión a previa conjugada Beta en inferencia bayesiana sobre una frecuencia

Siguiente es un extracto de Bolstad de Introducción a la Estadística Bayesiana.

I am reading t

Para todos los expertos, esto podría ser trivial, pero no entiendo cómo el autor llega a la conclusión de que no tenemos que hacer ninguna integración para calcular la probabilidad posterior para un cierto valor de $\pi$. Entiendo que la segunda expresión que es la proporcionalidad y donde todos los términos de venir de( probabilidad x Antes ). Además, entiendo,que no tiene que preocuparse por el denominador ya que sólo el numerador es directamente proporcional. Pero de pasar a la tercera ecuación, ¿no estamos olvidando el denominador de la Regla de Bayes? A dónde se fue ? Y el valor calculado por las funciones Gamma, ¿no es constante ? No constantes cancelar en el teorema de Bayes ?

11voto

Björn Puntos 457

El punto es que sabemos lo que el posterior es proporcional a y lo que ocurre es que no tenemos necesidad de hacer de la integración para obtener la (constante) denominador, porque somos conscientes de que una distribución con función de densidad de probabilidad proporcional a $x^{\alpha-1} \times (1-x)^{\beta-1}$ (tales como la parte posterior) es una distribución beta. Desde la normalización de la constante para una beta pdf es $\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}$, obtenemos la posterior pdf, sin necesidad de la integración. Y sí, la normalización de la constante en el teorema de Bayes es una constante (dados los datos observados y el estado de la asumida) como el de la normalización de la constante por la parte posterior de la densidad.

8voto

indentation Puntos 2178

El programa de instalación

Usted tiene este modelo: \begin{align*} p & \, \sim \, \text{beta}(\alpha, \beta) \\ x \, | \, p & \, \sim \, \text{binomial}(n, p) \end{align*} Las densidades para los que se \begin{equation*} f(p) = \frac{1}{B(\alpha, \beta)} p^{\alpha - 1} (1 - p)^{\beta - 1} \end{ecuación*} \begin{equation*} g(x \, | \, p) = {n \choose x} p^x (1 - p)^{n - x} \end{ecuación*} y, en particular, tenga en cuenta que \begin{equation*} \frac{1}{B(\alpha, \beta)} = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)}. \end{ecuación*}

La versión implícita

Ahora. La distribución posterior es proporcional a la previa $f$ multiplicado por la probabilidad de $g$. Podemos ignorar las constantes (es decir, cosas que no se $p$), dando como resultado: \begin{align*} h(p \, | \, x) & \propto f(p) g(p \, | \, x) \\ & = p^{\alpha - 1} (1 - p)^{\beta - 1} p^x p^{n - x} \\ & = p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1}. \end{align*}

Este tiene la forma de una distribución beta con parámetros de $\alpha + x$$\beta + n - x$, y sabemos lo que el correspondiente de la normalización de la constante para una distribución beta con los parámetros deben ser: $1 / B(\alpha + x, \beta + n - x)$. O, en términos de funciones gamma, \begin{equation*} \frac{1}{B(\alpha + x, \beta + n - x)} = \frac{\Gamma(n + \alpha + \beta)}{\Gamma(\alpha + x)\Gamma(\beta + n - x)}. \end{ecuación*} En otras palabras, podemos hacer un poco mejor que en una relación proporcional sin más de trabajo de campo, e ir directamente a la igualdad: \begin{equation*} h(p \, | \, x) = \frac{\Gamma(n + \alpha + \beta)}{\Gamma(\alpha + x)\Gamma(\beta + n - x)} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1}. \end{ecuación*}

Así que uno puede usar el conocimiento de la estructura de una distribución beta para recuperar fácilmente una expresión para la parte posterior, en lugar de ir a través de algunos desordenado de integración y similares.

Es una especie de en torno a la plena posterior, implícitamente, la cancelación de la normalización de las constantes de la distribución conjunta, que puede ser confuso.

La versión explícitos

También puede moler las cosas en el procedimiento, que puede ser más clara.

En realidad, no es todo lo que mucho más. Tenga en cuenta que podemos expresar de la distribución conjunta como \begin{align*} f(p)g(x \, | \, p) = \frac{1}{B(\alpha, \beta)}{n \choose x} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1} \end{align*} y la distribución marginal de $x$ \begin{align*} \int_{0}^{1}f(p)g(x \, | \, p)dp & = \frac{1}{B(\alpha, \beta)}{n \choose x} \int_{0}^{1} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1} dp \\ & = \frac{1}{B(\alpha, \beta)}{n \choose x} \frac{\Gamma(\alpha + x)\Gamma(\beta + n - x)}{\Gamma(\alpha + \beta + n - x)} \end{align*}

De manera que podemos expresar la posterior usando el teorema de Bayes por \begin{align*} h(p \, | \, x) & = \frac{f(p) g(x \, | \, p)}{\int_{0}^{1}f(p) g(x \, | \, p)dp} \\ & = \frac{\frac{1}{B(\alpha, \beta)}{n \choose x} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1}}{\frac{1}{B(\alpha, \beta)}{n \choose x} \frac{\Gamma(\alpha + x)\Gamma(\beta + n - x)}{\Gamma(\alpha + \beta + n)}} \\ & = \frac{\Gamma(n + \alpha + \beta)}{\Gamma(\alpha + x)\Gamma(\beta + n - x)} p^{\alpha + x - 1} (1 - p)^{\beta + n - x - 1} \end{align*} que es la misma cosa que hemos conseguido anteriormente.

8voto

Eduardo Santa Puntos 368

Observaciones Generales

Para que la respuesta dada por @Björn un poco más explícito y en el mismo tiempo, más general, debemos recordar que llegamos al Teorema de Bayes, de

$p(\theta|X) \times p(X) = p(X,\theta)=p(X|\theta)\times p(\theta)$

$\implies p(\theta|X) = \frac{p(X|\theta)\times p(\theta)}{p(X)}$ (Bayes Thereom)

donde $X$ representa a los datos observados y $\theta$ nuestro parámetro desconocido nos gustaría hacer inferencias probabilísticas acerca de -- en la cuestión del caso el parámetro es un desconocido frecuencia $\pi$. No nos preocupemos por ahora si estamos hablando de vectores o escalares a mantenerlo simple.

La marginación en el caso continuo conduce a

$p(X) = \int_{-\infty}^{+\infty}{p(X,\theta)d\theta}=\int_{-\infty}^{+\infty}{p(X|\theta)\times p(\theta)d\theta}$

donde la distribución conjunta $p(X,\theta)$ es igual a $likelihood \times prior$, como hemos visto anteriormente. Es una constante ya que después de la 'integración' el parámetro del que depende solo de los términos constantes.

Por lo tanto, podemos reformular el Teorema de Bayes, como

$p(\theta|X) = Const. \times p(X|\theta)\times p(\theta)$ $Const. = \frac{1}{p(X)} = \frac{1}{\int{p(X|\theta)\times p(\theta)d\theta}}$

y así llegamos a la costumbre de proporcionalidad de la forma de Teorema de Bayes.

Aplicación al problema de una mano

Ahora estamos listos para simplemente enchufe en lo que sabemos desde $likelihood \times prior$ en la cuestión del caso es de la forma

$p(X,\theta)= p(X|\theta)\times p(\theta) = A \cdot \theta^{\,a + y - 1}(1-\theta)^{b + n - y - 1} = A\cdot \theta^{\,a' - 1}(1-\theta)^{b' - 1}$

donde $a' = a+y$, $b' = b+n-y$ y donde $A = \frac{1}{B(a,b)}\binom{n}{y}$ recoge los términos constantes de la probabilidad binomial y la beta anterior.

Ahora podemos utilizar la respuesta dada por @Björn encontrar que este se integra a la función Beta $B(a',b')$ los tiempos de la colección de términos constantes $A$, de modo que

$p(X) = A\cdot\int_0^1{\theta^{\,a' - 1}(1-\theta)^{b' - 1}d\theta}=A\cdot B(a',b')$

$\implies p(\theta|X) = \frac{A\cdot\theta^{\,a' - 1}(1-\theta)^{b' - 1}}{A\cdot B(a',b')}=\frac{\theta^{\,a' - 1}(1-\theta)^{b' - 1}}{B(a',b')}$

Tenga en cuenta, que cualquier término constante en la distribución conjunta voluntad siempre se cancelan, ya que aparecen en el numerador y el denominador al mismo tiempo (cf. la respuesta dada por @jtobin), así que realmente no tienen que preocuparse más.

Por lo tanto reconocemos que nuestra distribución posterior es de hecho una distribución beta donde se puede simplemente actualizar el prior de los parámetros de $a' = a+y$ $b' = b+n-y$ , para llegar a la parte posterior. Esta es la razón por la beta distribuido antes de se llama conjugado de antes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X