17 votos

Monte Carlo hamiltoniano: ¿cómo dar sentido a la propuesta de Metrópolis-Hasting?

Estoy tratando de entender el funcionamiento interno de Hamiltonian Monte Carlo (HMC), pero no puedo entender completamente la parte cuando reemplazamos la integración temporal determinista con una propuesta de Metropolis-Hasting. Estoy leyendo el impresionante documento introductorio Introducción conceptual al Monte Carlo hamiltoniano de Michael Betancourt, por lo que seguiré la misma notación utilizada en él.

Antecedentes

El objetivo general de Markov Chain Monte Carlo (MCMC) es aproximar la distribución $\pi(q)$ de una variable objetivo $q$ .

La idea del HMC es introducir una variable auxiliar de "impulso" $p$ junto con la variable original $q$ que se modela como la "posición". El par posición-momento forma un espacio fásico y puede ser descrito por la dinámica hamiltoniana. La distribución conjunta $\pi(q, p)$ puede escribirse en términos de descomposición microcanónica:

$\pi(q, p) = \pi(\theta_E | E) \hspace{2pt} \pi(E)$ ,

donde $\theta_E$ representa los parámetros $(q, p)$ en un nivel de energía determinado $E$ , también conocido como conjunto típico . Véase la Fig. 21 y la Fig. 22 del documento como ilustración.

enter image description here

El procedimiento original de HMC consta de los dos pasos siguientes, que se alternan:

  • Un paso estocástico que realiza una transición aleatoria entre niveles de energía, y

  • Un paso determinista que realiza la integración temporal (normalmente implementada a través de la integración numérica a saltos) a lo largo de un nivel de energía determinado.

En el documento, se argumenta que el leapfrog (o integrador simpléctico) tiene pequeños errores que introducirán un sesgo numérico. Por lo tanto, en lugar de tratarlo como un paso determinista, debemos convertirlo en una propuesta de Metrópolis-Hasting (MH) para que este paso sea estocástico, y el procedimiento resultante produzca muestras exactas de la distribución.

La propuesta de MH realizará $L$ pasos de las operaciones de salto y luego flip el impulso. La propuesta será entonces aceptada con la siguiente probabilidad de aceptación:

$a (q_L, -p_L | q_0, p_0) = min(1, \exp(H(q_0,p_0) - H(q_L,-p_L)))$

Preguntas

Mis preguntas son:

1) ¿Por qué esta modificación de convertir la integración temporal determinista en la propuesta MH anula el sesgo numérico para que las muestras generadas sigan exactamente la distribución objetivo?

2) Desde el punto de vista de la física, la energía se conserva en un nivel de energía determinado. Por eso podemos utilizar las ecuaciones de Hamilton:

$\dfrac{dq}{dt} = \dfrac{\partial H}{\partial p}, \hspace{10pt} \dfrac{dp}{dt} = -\dfrac{\partial H}{\partial q}$ .

En este sentido, la energía debe ser constante en todas partes en el conjunto típico, por lo que $H(q_0, p_0)$ debe ser igual a $H(q_L, -p_L)$ . ¿Por qué hay una diferencia de energía que nos permite construir la probabilidad de aceptación?

13voto

Henning Kockerbeck Puntos 1493

Las trayectorias hamiltonianas deterministas son útiles sólo porque son consistentes con la distribución del objetivo. En particular, las trayectorias con una energía típica se proyectan sobre regiones de alta probabilidad de la distribución objetivo. Si pudiéramos integrar las ecuaciones de Hamilton exactamente y construir trayectorias hamiltonianas explícitas, entonces ya tendríamos un algoritmo completo y no necesitaríamos ningún paso de aceptación .

Desgraciadamente, fuera de algunos ejemplos muy sencillos, no podemos integrar las ecuaciones de Hamilton con exactitud. Por eso tenemos que traer integradores simplécticos . Los integradores simplécticos se utilizan para construir con gran precisión aproximaciones numéricas a las trayectorias hamiltonianas exactas que no podemos resolver analíticamente. El pequeño error inherente a los integradores simplécticos hace que estas trayectorias numéricas se desvíen de las verdaderas, y por tanto las proyecciones de las trayectorias numéricas se desviarán del conjunto típico de la distribución objetivo. Tenemos que introducir una forma de corregir esta desviación.

La implementación original de Hamiltonian Monte Carlo consideraba el punto final de una trayectoria de longitud fija como una propuesta, y luego aplicaba un procedimiento de aceptación de Metrópolis a esa propuesta. Si la trayectoria numérica había acumulado demasiado error, y por tanto se desviaba demasiado de la energía inicial, entonces esa propuesta se rechazaba. En otras palabras, el procedimiento de aceptación desecha las propuestas que acaban proyectándose demasiado lejos del conjunto típico de la distribución objetivo, de modo que las únicas muestras que conservamos son las que caen dentro del conjunto típico.

Obsérvese que las implementaciones más modernas que defiendo en el documento conceptual no son en realidad algoritmos de Metrópolis-Hastings. El muestreo de una trayectoria aleatoria y luego de un punto aleatorio de esa trayectoria aleatoria es una forma más general de corregir el error numérico introducido por los integradores simplécticos. Metrópolis-Hastings es sólo una forma de implementar este algoritmo más general, pero el muestreo por cortes (como se hace en NUTS) y el muestreo multinomial (como se hace actualmente en Stan) funcionan igual de bien, si no mejor. Pero en última instancia, la intuición es la misma: estamos seleccionando probabilísticamente puntos con un pequeño error numérico para asegurar muestras exactas de la distribución objetivo.

1 votos

¡¡Gracias @Michael Betancourt!! Conceptualmente, ahora entiendo la idea de hacer el paso de integración temporal probabilístico, basado en cuánto se desvía el estado integrado de la trayectoria. Sin embargo, la forma en que se construye la probabilidad de aceptación no tiene completamente sentido para mí, ya que parece que estamos fomentando la desviación que resulta en una menor energía? Si $H(q_L, -p_L)$ es mucho menor que $H(q_0, p_0)$ ¿acabamos aceptando siempre la propuesta, aunque se desvíe mucho de la trayectoria?

2 votos

Sí, pero debido a cómo funciona el volumen en los espacios de alta dimensión (siempre hay más volumen hacia el exterior de una superficie que hacia el interior de la misma), las trayectorias pasan exponencialmente más tiempo desviándose hacia energías más altas que hacia energías más bajas. En consecuencia, cuando se combina la propuesta (que favorece las energías más altas) con la aceptación (que favorece las energías más bajas) se recupera un equilibrio en torno a la energía inicial.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X