¿Cómo se pueden "extraer muestras de la distribución posterior" sin conocer primero las propiedades de dicha distribución?
En el análisis bayesiano solemos saber que la distribución posterior es proporcional a una función conocida (la probabilidad multiplicada por la prioridad), pero no conocemos la constante de integración que nos daría la densidad posterior real:
$$\pi( \theta | \mathbb{x} ) = \frac{\overbrace{L_\mathbb{x}(\theta) \pi(\theta)}^{\text{Known}}}{\underbrace{\int L_\mathbb{x}(\theta) \pi(\theta) d\theta}_{\text{Unknown}}} \overset{\theta}{\propto} \overbrace{L_\mathbb{x}(\theta) \pi(\theta)}^{\text{Known}}.$$
Así que en realidad sabemos una mayor propiedad de la distribución; que es proporcional a una función particular conocida. Ahora bien, en el contexto del análisis MCMC, una cadena de Markov toma un valor inicial $\theta_{(0)}$ y produce una serie de valores $\theta_{(1)}, \theta_{(2)}, \theta_{(3)}, ...$ para este parámetro.
La cadena de Markov tiene un distribución estacionaria que es la distribución que se conserva si se pasa por la cadena. Bajo ciertos supuestos generales (por ejemplo, que la cadena sea irreducible, aperiódica), la distribución estacionaria será también la distribución límite de la cadena de Markov, de modo que, independientemente de cómo se elija el valor inicial, ésta será la distribución hacia la que converjan los resultados a medida que se recorre la cadena más y más tiempo. Resulta que es posible diseñar una cadena de Markov con una distribución estacionaria igual a la distribución posterior, aunque no sepamos exactamente cuál es esa distribución . Es decir, es posible diseñar una cadena de Markov que tenga $\pi( \theta | \mathbb{x} )$ como su distribución estacionaria límite, incluso si todo lo que sabemos es que $\pi( \theta | \mathbb{x} ) \propto L_\mathbb{x}(\theta) \pi(\theta)$ . Hay varias formas de diseñar este tipo de cadena de Markov, y estos diversos diseños constituyen algoritmos MCMC disponibles para generar valores a partir de la distribución posterior.
Una vez que hemos diseñado un método MCMC como éste, sabemos que podemos introducir cualquier valor inicial arbitrario $\theta_{(0)}$ y la distribución de las salidas convergerá a la distribución posterior (ya que ésta es la distribución estacionaria límite de la cadena). Por lo tanto, podemos extraer muestras (no independientes) de la distribución posterior empezando con un valor inicial arbitrario, introduciéndolo en el algoritmo MCMC, esperando a que la cadena converja cerca de su distribución estacionaria y, a continuación, tomando las salidas posteriores como nuestras extracciones.
Esto suele implicar generar $\theta_{(1)}, \theta_{(2)}, \theta_{(3)}, ..., \theta_{(M)}$ para algún valor grande de $M$ y descartando $B < M$ iteraciones de "quemado" para permitir que se produzca la convergencia, dejándonos con sorteos $\theta_{(B+1)}, \theta_{(B+2)}, \theta_{(B+3)}, ..., \theta_{(M)} \sim \pi( \theta | \mathbb{x} )$ (aproximadamente).
Si ya conoce las propiedades de su distribución posterior... ¿qué sentido tiene utilizar este método?
El uso de la simulación MCMC nos permite pasar de un estado en el que sabemos que la distribución posterior es proporcional a alguna función dada (la verosimilitud multiplicada por la prioridad) para simular realmente a partir de esta distribución. A partir de estas simulaciones podemos estimar la constante de integración para la distribución posterior, y entonces tenemos una buena estimación de la distribución real. También podemos utilizar estas simulaciones para estimar otros aspectos de la distribución posterior, como sus momentos.
Ahora bien, hay que tener en cuenta que MCMC no es la única forma de hacerlo. Otro método sería utilizar algún otro método de integración numérica para tratar de encontrar la constante de integración para la distribución posterior. MCMC va directamente a la simulación de los valores, en lugar de tratar de estimar la constante de integración, por lo que es un método popular.