6 votos

Pregunta sobre esta relación en el algoritmo MCMC de Metropolis-Hastings

Tengo una pregunta estúpida sobre el Algoritmo de muestreo Metropolis-Hastings .

Si lo he entendido bien, para cada variable $X$ a su vez, que actualmente tiene valor $x_{old}$ se genera una nueva muestra $x_{new}$ . Para ello, se dibuja $x_{new}$ de la distribución de la propuesta $Q(x_{new}\mid x_{old})$ , entonces sacas un número $\alpha$ uniformemente al azar del rango entre $0$ y $1$ . Entonces, acepta $x_{new}$ si $\alpha < \min{1,\frac{P(x_{new})}{P(x_{old})}\frac{Q(x_{old}\mid x_{new})}{Q(x_{new}\mid x_{old})}}$

La segunda proporción no tiene realmente sentido para mí: ¿Por qué es más probable que aceptemos si $Q(x_{new}\mid x_{old})$ ¿es baja?

3voto

Steven Murawski Puntos 6665

Por lo que dices, no sé si quieres una prueba o una intuición. Como la prueba está escrita en muchos sitios, voy a suponer que quieres una intuición.

De manera muy informal: el algoritmo permite, en efecto, tomar muestras de la distribución P utilizando muestras de la distribución Q. Así que, en cierto sentido, queremos tomar las muestras de Q y "eliminar" las propiedades estadísticas de estas muestras que revelan que proceden de Q, sustituyéndolas por las propiedades de P. Lo que "delata" que proceden de Q es que es más probable que procedan de zonas donde Q es alto. Por lo tanto, queremos que nuestra probabilidad de aceptación se reduzca cuando nuestras muestras procedan de dicha zona. Eso es exactamente lo que se consigue dividiendo por $Q(x_{new}|x_{old})$ lo hace.

(BTW El $min$ en su expresión es redundante).

2voto

AudioDan Puntos 168

Si el núcleo $Q$ es simétrica (es decir $Q(x,y)=Q(y,x)$ ), la relación de Metropolis se reduce a $$ 1 \wedge \frac{P(x_{new})}{P(x_{old})}. $$ Se trata de un ascenso de gradiente estocástico: hay una deriva hacia las configuraciones altamente probables.

Ahora, si el núcleo $Q$ no es simétrico, también hay que tenerlo en cuenta: es posible que el Kernel $Q$ está fuertemente sesgado hacia ciertas configuraciones que no es probable que ocurran bajo la distribución objetivo $P(\cdot)$ y tienes que corregirlo - esto es lo que el término adicional $\frac{Q(x_{old}|x_{new})}{Q(x_{new}|x_{old}}$ .

Tomemos el ejemplo de una cadena de Markov en $\{1,2,\ldots,N\}$ con una distribución uniforme del objetivo $P(k)=\frac{1}{N}$ y con el núcleo de la propuesta $Q(k+1|k)=1-Q(k-1|k)=0.99$ (y hacer algo diferente en el límite). El núcleo $Q$ le empuja fuertemente hacia valores altos del intervalo $\{1,2,\ldots,N\}$ - Sin embargo, la relación de Metropolis es siempre igual a $1$ para que todos los movimientos sean aceptados: esto es claramente erróneo. La relación Metrópolis-Hasting lo corrige y toma la asimetría de $Q$ en cuenta: un paso de $k$ a $k+1$ se acepta con una probabilidad sólo igual a $\frac{0.01}{0.99}$ .

1voto

Mi opinión sobre la regla de Metrópolis es la siguiente. Supongamos que quiero preservar alguna distribución $P(x),$ por una transición $Q(x \to y)$ . Puedo imponer una condición estrictamente más fuerte, a saber, el equilibrio detallado. Esto dice que $Q$ debe transportar una cantidad igual de masa entre dos puntos cualesquiera (en lugar de equilibrarse globalmente). Eso parece $P(x) Q(x \to y) = P(y) Q(y \to x).$ Esto no se cumple, pero podemos alterarlo de la siguiente manera sencilla: supongamos que el lado izquierdo es mayor. Basta con modificar $Q(x \to y)$ multiplicando por $\alpha = \frac{Q(y \to x)}{Q(x \to y)} \frac{P(y)}{P(x)}$ y el ajuste $\tilde{Q}(x \to y) = \alpha Q(x \to y)$ y $\tilde{Q}(y \to x) = Q(y \to x).$ Podemos simularlo extrayendo de $Q$ y aceptar los pasos de $x \to y$ con probabilidad $\alpha.$

Básicamente, mira la supuesta ecuación del equilibrio detallado, reduce el lado mayor para que sea verdadera por definición. Realiza ese escalado adelgazando pasos al azar.

0voto

Gizmo Puntos 111

Intuitivamente, he podido entender la relación Metrópolis-Hastings como un compromiso entre el tiempo que deberíamos pasar en el punto candidato (el numerador) frente a la facilidad para llegar al punto candidato (el denominador).

Entonces, si nuestro candidato, $x_{new}$ es fácil de llegar (denominador grande) pero no deberíamos pasar mucho tiempo allí (numerador pequeño) entonces la proporción es pequeña y aceptamos el nuevo candidato con una probabilidad menor.

Por el contrario, si nuestro candidato es de difícil acceso (denominador pequeño) pero debemos pasar mucho tiempo en él (es decir $x_{new}$ es muy probable dada nuestra distribución objetivo) entonces el ratio es grande y aceptamos el movimiento con alta probabilidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X