Preliminares: El libro Introducción a los métodos de Monte Carlo con R (sin signo de exclamación en el título, aunque la serie de libros de Springer se llama ¡Usa R! ) fue coescrito por mi difunto amigo George Casella.
Aquí se reproduce íntegramente el párrafo que contiene la cita:
El estudio de los algoritmos independientes de Metropolis-Hastings es ciertamente interesante, pero su aplicación práctica es más problemática en que son delicados de utilizar en entornos complejos porque la construcción de la propuesta es complicada -si estamos usando Si utilizamos la simulación, a menudo es porque la derivación de estimaciones como los MLE es y porque la elección de la propuesta influye mucho en el rendimiento del algoritmo. en el rendimiento del algoritmo. En lugar de construir una propuesta desde cero o sugerir una aproximación no paramétrica basada en una de una ejecución preliminar -porque es poco probable que funcione para dimensiones moderadas o altas dimensiones moderadas y altas, es más realista recopilar información sobre el objetivo paso a paso, es decir, explorando la vecindad del valor actual de la cadena. Si el mecanismo de exploración tiene suficiente energía para llegar hasta los límites del soporte del objetivo $f$ El método acabará descubriendo la complejidad del objetivo. (Se trata fundamentalmente de la misma intuición en la algoritmo de recocido simulado de la sección 2.3.3 y el método de gradiente estocástico de la sección 2.3.2.)
Un algoritmo Metrópolis-Hastings "funcionará", es decir, acabará produciendo simulaciones del objetivo de interés si cada región del soporte del objetivo tiene una probabilidad positiva de ser visitada por la cadena de Markov simulada. En caso contrario, la cadena de Markov no es irreducible (en la práctica, si no en la teoría) y permanece en un subconjunto (estricto) del soporte del objetivo, por lo que no puede considerarse una muestra (dependiente) de dicho objetivo.
La capacidad de llegar a todas las partes del apoyo del objetivo $\pi(\cdot)$ depende fundamentalmente de la distribución de la propuesta $q(\cdot\,;\cdot)$ utilizado en el algoritmo Metropolis-Hastings: si los posibles movimientos permitidos por $q(\cdot\,;\cdot)$ son demasiado limitados con respecto al apoyo de $\pi(\cdot)$ la cadena de Markov permanecerá atascada en un subconjunto del soporte de $\pi(\cdot)$ y por lo tanto producir una simulación de $\pi(\cdot)$ restringido a este subconjunto. Por el contrario, si los posibles movimientos permitidos por $q(\cdot\,;\cdot)$ son de gran alcance, de nuevo con respecto al apoyo de $\pi(\cdot)$ la cadena de Markov tendrá una probabilidad positiva de llegar a cualquier parte del soporte de $\pi(\cdot)$ (aunque no necesariamente en un solo paso).
El término energía se utilizó para traducir esta noción, inspirada en la física como muchos términos del área, y sin ninguna definición formal en mente. De hecho, puede resultar confuso ya que energía también se utiliza en asociación con el objetivo, especialmente en recocido simulado y con la intuición contraria, ya que el objetivo es alcanzar las energías más bajas .