Dejemos que
- $d\in\mathbb N$ con $d>1$
- $\ell>0$
- $\sigma_d^2:=\frac{\ell^2}{d-1}$
- $f\in C^2(\mathbb R)$ ser positivo con $$\int f(x)\:{\rm d}x=1$$ y $g:=\ln f$
- $Q_d$ sea un núcleo de Markov en $(\mathbb R^d,\mathcal B(\mathbb R^d))$ con $$Q_d(x,\;\cdot\;)=\mathcal N_d(x,\sigma_dI_d)\;\;\;\text{for all }x\in\mathbb R^d,$$ donde $I_d$ denota el $d$ -Matriz unitaria de dimensiones
Ahora, dejemos que $$\pi_d(x):=\prod_{i=1}^df(x_i)\;\;\;\text{for }x\in\mathbb R^d$$ y $\left(X^{(d)}_n\right)_{n\in\mathbb N_0}$ denotan la cadena de Markov generada por el algoritmo Metropolis-Hastings con el núcleo de propuesta $Q_d$ y la densidad del objetivo $\pi_d$ (con respecto al $d$ -medida de Lebesuge de una dimensión $\lambda^d$ ). Además, dejemos que $$U^{(d)}_t:=\left(X^{(d)}_{\lfloor dt\rfloor}\right)_1\;\;\;\text{for }t\ge0.$$ En el documento Convergencia débil y escalamiento óptimo de los algoritmos Metropolis de paseo aleatorio los autores muestran (asumiendo que $g$ es continua de Lipschitz y satisface algunas condiciones de momento) que $U^{(d)}$ converge (en la topología de Skorohod) como $d\to\infty$ a la solución $U$ de $${\rm d}U_t=\frac{h(\ell)}2g'(U_t){\rm d}t+\sqrt{h(\ell)}{\rm d}W_t,$$ donde $W$ es un movimiento browniano estándar, con $U_0\sim f\lambda^1$ .
Ahora, concluyen que la "elección óptima" para $\ell$ se obtiene maximizando $$h(\ell):=2\ell^2\Phi\left(-\frac{\ell\sqrt I}2\right),$$ donde $\Phi$ denota la función de distribución acumulativa de la distribución normal estándar y $$I:=\int\left|g'\right|^2\:{\rm d}(f\lambda^1)<\infty.$$ Por qué ? ¿En qué sentido (por ejemplo, distancia de variación total o varianza) optimiza esto el algoritmo Metropolis-Hastings?
He leído que $h(\ell)$ se denomina "función/medida de velocidad" de la difusión $U$ ... Estaría muy contento con una referencia para ese tema.