8 votos

Escalamiento óptimo del algoritmo Random Walk Metroplis-Hastings y la medida de velocidad de la difusión límite

Dejemos que

  • $d\in\mathbb N$ con $d>1$
  • $\ell>0$
  • $\sigma_d^2:=\frac{\ell^2}{d-1}$
  • $f\in C^2(\mathbb R)$ ser positivo con $$\int f(x)\:{\rm d}x=1$$ y $g:=\ln f$
  • $Q_d$ sea un núcleo de Markov en $(\mathbb R^d,\mathcal B(\mathbb R^d))$ con $$Q_d(x,\;\cdot\;)=\mathcal N_d(x,\sigma_dI_d)\;\;\;\text{for all }x\in\mathbb R^d,$$ donde $I_d$ denota el $d$ -Matriz unitaria de dimensiones

Ahora, dejemos que $$\pi_d(x):=\prod_{i=1}^df(x_i)\;\;\;\text{for }x\in\mathbb R^d$$ y $\left(X^{(d)}_n\right)_{n\in\mathbb N_0}$ denotan la cadena de Markov generada por el algoritmo Metropolis-Hastings con el núcleo de propuesta $Q_d$ y la densidad del objetivo $\pi_d$ (con respecto al $d$ -medida de Lebesuge de una dimensión $\lambda^d$ ). Además, dejemos que $$U^{(d)}_t:=\left(X^{(d)}_{\lfloor dt\rfloor}\right)_1\;\;\;\text{for }t\ge0.$$ En el documento Convergencia débil y escalamiento óptimo de los algoritmos Metropolis de paseo aleatorio los autores muestran (asumiendo que $g$ es continua de Lipschitz y satisface algunas condiciones de momento) que $U^{(d)}$ converge (en la topología de Skorohod) como $d\to\infty$ a la solución $U$ de $${\rm d}U_t=\frac{h(\ell)}2g'(U_t){\rm d}t+\sqrt{h(\ell)}{\rm d}W_t,$$ donde $W$ es un movimiento browniano estándar, con $U_0\sim f\lambda^1$ .

Ahora, concluyen que la "elección óptima" para $\ell$ se obtiene maximizando $$h(\ell):=2\ell^2\Phi\left(-\frac{\ell\sqrt I}2\right),$$ donde $\Phi$ denota la función de distribución acumulativa de la distribución normal estándar y $$I:=\int\left|g'\right|^2\:{\rm d}(f\lambda^1)<\infty.$$ Por qué ? ¿En qué sentido (por ejemplo, distancia de variación total o varianza) optimiza esto el algoritmo Metropolis-Hastings?

He leído que $h(\ell)$ se denomina "función/medida de velocidad" de la difusión $U$ ... Estaría muy contento con una referencia para ese tema.

3voto

user21770 Puntos 6

La difusión de Langevin es un proceso $(X_t)_{t \ge 0}$ satisfaciendo la SDE: \begin {align*} d X_t = - \nabla h(X_t) + \sqrt {2} dW_t \end {align*}
donde $(W_t)_{t \ge 0}$ es el movimiento browniano estándar en $\mathbb R^d$ . En condiciones leves en $h$ , lo anterior tiene una solución única que es un proceso de Markov. Además, la distribución de $X_t$ se puede demostrar que converge a una distribución con densidad $\pi(x) \propto \exp(-h(x))$ como $t \to \infty$ . Voy a escribir esto como $\mathcal L(X_t) \to \exp(-h) dx$

En el documento que consideras, tienen la dinámica 1-d: \begin {align*} d V_t = d B_t + \frac {f'(V_t)}{2 f(V_t)} dt = d B_t + \frac12 g'(V_t) dt \end {align*} donde $g = \log f$ . Definamos $\tilde V_t = V_{\alpha t}$ . Entonces, \begin {align*} d \tilde V_t &= \alpha ^{1/2} \N, d B_{t} + \frac\alpha 2 g'( \tilde V_{t}) dt \end {align*} (Esto es utilizando el hecho de que $(B_{\alpha t})$ tiene la misma distribución que $(\sqrt{\alpha} B_t.)$ Tomando $\alpha = 2$ tenemos que $\tilde V_t$ satisface la dinámica estándar de Langevin con $h = -g$ Por lo tanto $$\mathcal L(\tilde V_t) \to \exp(g) dx = f dx \quad \text{as} \quad t \to \infty.$$

Ahora, como argumentan en el documento $U_t = V_{h(\ell) t}$ . Esto es fácil de ver con el mismo argumento que el anterior: básicamente fijando $\alpha = h(\ell)$ muestra que $U_t$ satisface la SDE deseada.

En resumen $U_t = \tilde V_{\frac12 h(\ell) t}$ y $\tilde V_t$ converge en la distribución a la ley deseada. Así que $\frac12 h(\ell)$ parece una talla de paso. Cuanto más grande es, más rápido se avanza en el proceso $\tilde V_t$ para un paso unitario en el tiempo (digamos $\Delta t = 1)$ .

EDIT: Hay mucha actividad reciente interesante sobre la convergencia de la dinámica de Langevin y el algoritmo MH. Intentaré citarlos en cuanto tenga ocasión.

EDIT2: Algunos acontecimientos recientes:

0 votos

¿Tiene alguna referencia para $\mathcal L(X_t) \to \exp(-h) dx$ a mano?

0 votos

En su ecuación para ${\rm d}\tilde V_t$ El $B_t$ es diferente de la anterior $B_t$ ¿no es así? En realidad debería ser $\tilde B_t:=\alpha^{-1/2}B_{\alpha t}$ (que es un movimiento browniano).

0 votos

Y no entiendo por qué $U_t = \tilde V_{\frac12 h(\ell) t}$ . Como escribió antes $U_t=V_{h(\ell)t}$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X