13 votos

¿Cómo derivar el muestreo de Gibbs?

De hecho estoy dudando preguntar esto, porque me temo que me va a ser transferido a otras preguntas o Wikipedia sobre el muestreo de Gibbs, pero no tengo la sensación de que ellos describen lo que está a mano.

Dada una probabilidad condicional $p(x|y)$: $$ \begin{array}{c|c|c} p(x|y) & y = y_0 & y = y_1 \\ \hline x = x_0 & \tfrac{1}{4} & \tfrac{2}{6} \\ \hline x = x_1 & \tfrac{3}{4} & \tfrac{4}{6} \\ \end{array} $$

Y una probabilidad condicional $p(y|x)$: $$ \begin{array}{c|c|c} p(y|x) & y = y_0 & y = y_1 \\ \hline x = x_0 & \tfrac{1}{3} & \tfrac{2}{3} \\ \hline x = x_1 & \tfrac{3}{7} & \tfrac{4}{7} \\ \end{array} $$

Podemos únicamente con la probabilidad conjunta $f_{unique}=p(x,y)$:

$$ \begin{array}{c|c|c|c} p(x,y) & y = y_0 & y = y_1 & p(x) \\ \hline x = x_0 & a_0 & a_1 & c_0 \\ \hline x = x_1 & a_2 & a_3 & c_1 \\ \hline p(y) & b_0 & b_1 & \\ \end{array} $$

Porque, aunque hemos $8$ incógnitas, tenemos más ($4*2+3$) ecuaciones lineales:

$ a_0+a_1+a_2+a_3=1 \\ b_0+b_1 = 1 \\ c_0+c_1 = 1 $

Así como:

$ \tfrac{1}{4} b_0 = a_0 \\ \tfrac{3}{4} b_0 = a_2 \\ \tfrac{2}{6} (1-b_0) = a_1 \\ \tfrac{4}{6} (1-b_0) = a_3 \\ \tfrac{1}{3} c_0 = a_0 \\ \tfrac{2}{3} c_0 = a_1 \\ \tfrac{3}{7} (1-c_0) = a_2 \\ \tfrac{4}{7} (1-c_0) = a_3 $

Rápidamente resuelto por $c_0=\tfrac{3}{4}b_0$, $\tfrac{2}{3}c_0=a_1$. Es decir, equiparando $\tfrac{2}{4}b_0=a_1$$\tfrac{2}{6}(1-b_0)=a_1$. Esto le da a $b_0=\tfrac{2}{5}$ y el resto de la siguiente manera.

$$ \begin{array}{c|c|c|c} p(x,y) & y = y_0 & y = y_1 & p(x) \\ \hline x = x_0 & \tfrac{1}{10} & \tfrac{2}{10} & \tfrac{3}{10} \\ \hline x = x_1 & \tfrac{3}{10} & \tfrac{4}{10} & \tfrac{7}{10} \\ \hline p(y) & \tfrac{4}{10} & \tfrac{6}{10} & \\ \end{array} $$

Por lo tanto, ahora vamos al caso continuo. Es imaginable para ir a intervalos y mantener la estructura anterior en el tacto (con más ecuaciones que incógnitas). Sin embargo, ¿qué sucede cuando vamos a (punto) instancias de variables aleatorias? ¿Cómo muestreo

$$ x_a \sim p(x|y=y_b) \\ y_b \sim p(y|x=x_a) $$

de forma iterativa, llevar a $p(x,y)$? Equivalente a la restricción $a_0 + a_1 + a_2 + a_3=1$, ¿cómo asegurarse de $\int_X \int_Y p(x,y) dy dx = 1$, por ejemplo? De la misma manera con $\int_Y p(y|x)dy=1$. Podemos escribir las restricciones y derivar de muestreo de Gibbs a partir de primeros principios?

Así que, no estoy interesado en la forma de realizar el muestreo de Gibbs, que es simple, pero estoy interesado en cómo obtenerlo, y preferiblemente cómo probar que funciona (probablemente bajo ciertas condiciones).

10voto

Ludwi Puntos 188

El cálculo de una distribución conjunta de distribuciones condicionales en general es muy difícil. Si el condicional distribuciones son elegidos arbitrariamente, de una distribución conjunta podría incluso no existir. En este caso, incluso mostrando que las distribuciones condicionales son consistentes general, es difícil. Uno de los resultados que puedan ser utilizados para la obtención de una distribución conjunta es de Brook lema, $$ \frac{p(\mathbf{x})}{p(\mathbf{x}')} = \prod_i \frac{p(x_i \mid \mathbf{x}_{<i}, \mathbf{x}'_{>i})}{p(x_i' \mid \mathbf{x}_{<i}, \mathbf{x}'_{>i})},$$ por la elección de un estado fijo $\mathbf{x}'$, aunque nunca lo he utilizado con éxito en mí mismo para ese propósito. Para más información sobre el tema, me gustaría ver a Julian Besag del trabajo.

Para demostrar que el muestreo de Gibbs obras, sin embargo, es mejor tomar una ruta diferente. Si una cadena de Markov aplicado por un algoritmo de muestreo ha de distribución de $p$ como invariante de distribución, y es irreducible y aperiódica, a continuación, la cadena de Markov se reunirán de la distribución (Tierney, 1994).

Muestreo de Gibbs deja siempre la distribución conjunta invariantes a partir de la cual las distribuciones condicionales fueron derivados: Aproximadamente, si $(x_0, y_0) \sim p(x_0, y_0)$ y nos muestra $x_1 \sim p(x_1 \mid y_0)$, luego

$$(x_1, y_0) \sim \int p(x_0, y_0) p(x_1 \mid y_0) \, dx_0 = p(x_1 \mid y_0) p(y_0) = p(x_1, y_0).$$

Es decir, la actualización de $x$ por condicionalmente muestreo no cambia la distribución de la muestra.

Sin embargo, el muestreo de Gibbs es que no siempre irreductible. Aunque siempre se puede aplicar sin que se rompa cosas (en el sentido de que si ya tenemos una muestra de la distribución deseada no va a cambiar la distribución), que depende de la distribución conjunta si muestreo de Gibbs realidad convergen a la misma (una simple condición suficiente para la irreductibilidad es que la densidad es positiva en todas partes, $p(\mathbf{x}) > 0$).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X