1 votos

Cadena de Markov que es $\phi$ -irreducible pero no $\phi$ -recurrido

Tratando de entender la matemática subyacente del algoritmo Metrópolis-Hasting, me encontré con esto papel en cadenas de Markov de estado continuo. En la página 3, el ejemplo 2 da una cadena de Markov que se afirma que es fuertemente $\phi$ -irreducible pero no $\phi$ -recurrente (en el ejemplo $\pi$ se utiliza en lugar de $\phi$ )

Por comodidad, transcribo las definiciones pertinentes y el ejemplo.

En la página 1 se dan las siguientes definiciones ( $P$ es un núcleo de probabilidad, y $(X, B)$ es un espacio medible):

  1. $P$ es " $\phi$ -irreducible" si para todo $x \in X$ y todos $A \in B$ con $\phi(A) > 0$ hay un número entero positivo $n = n_{xA}$ tal que $P^n(x, A) > 0$

  2. $P$ es "fuertemente $\phi$ -irreducible" si para todo $x \in X$ y todos $A \in B$ con $\phi(A) > 0$ hay un número entero positivo $n = n_{xA}$ tal que $P^m(x, A) > 0$ para todos $m \geq n$

  3. $P$ es " $\phi$ -recurrente" si para todo $x \in X$ y todos $A \in B$ con $\phi(A) > 0$ una cadena de Markov que parte de $x$ en el momento $0$ golpea $A$ en algún momento positivo, a.s.; por supuesto, este momento es aleatorio

El ejemplo es el siguiente:

Dejemos que $X_1$ sea un conjunto finito, y $P$ una matriz estocástica en $X_1$ con todas las entradas estrictamente positivas. En estas circunstancias, existe una única probabilidad estacionaria $\pi$ y $P$ es $\pi$ -recurrente. Adjuntar una secuencia de estados 1, 2,..., cada uno con $\pi$ -probabilidad $0$ y las siguientes reglas de transición: $i \rightarrow i + 1$ con probabilidad $1/2^i$ con la probabilidad restante, $i$ va a un punto en $X_1$ elegido al azar entre $\pi$ . El núcleo resultante es fuertemente $\pi$ -irreducible, pero no $\pi$ -recurrente, debido a los estados colindantes.

No veo por qué el núcleo resultante no es $\pi$ -recurrente. En concreto, considero que la definición de $\phi-recurrent$ es equivalente a: $P(\tau_A = \infty \: | \: starting \: at \: x) = 0$ para todos $x \in X$ y todos $A \in B$ con $\phi(A) > 0$ , donde $\tau_A = min\{n > 0, X_n \in A\}$ (en este caso $P$ denota la probabilidad, no el núcleo)

Los estados que debemos examinar para esta propiedad son los estados contiguos. Por lo tanto, si en el momento $0$ la cadena comienza en $i$ que tenemos:

$$ P(\tau_A = \infty \: | \: starting \: at \: i) = P(i \rightarrow i + 1)P(\tau_A = \infty \: | \: starting \: at \: i+1) + (1-P(i \rightarrow i + 1))P(\tau_A = \infty \: | \: starting \: at \: x \in X_1) $$

Sin embargo, $P(\tau_A = \infty \: | \: starting \: at \: x \in X_1) = 0$ ya que el núcleo inicial es $\pi$ -recurrente, así:

$$ P(\tau_A = \infty \: | \: starting \: at \: i) = P(i \rightarrow i + 1)P(\tau_A = \infty \: | \: starting \: at \: i+1) $$

Inductivamente:

$$ P(\tau_A = \infty \: | \: starting \: at \: i) = \prod_{j=i}^\infty \frac{1}{2^j} = 0 $$

Entonces, ¿por qué el núcleo resultante no es $\pi$ -¿recurrente? ¿Hay algo que se me escapa?

1voto

Michael Puntos 5270

Esta respuesta da detalles sobre mi comentario:

El ejemplo del documento debería modificarse para asumir $$ P_{i,i+1} = 1 - \frac{1}{(i+1)^2} \quad \forall i \in \{1, 2, 3, ...\}$$ Esto se debe a que $$ \prod_{j=1}^{\infty} \left(1-\frac{1}{(i+1)^2}\right)= 1/2$$ y por tanto si empezamos en el estado 1, con probabilidad $1/2$ siempre hará la transición un paso adelante (en los estados aumentados) y por lo tanto nunca visitaremos estados en $X_1$ .


También es cierto que $$ \prod_{j=1}^{\infty} (1-2^{-j}) >0$$ y por eso creo que ese ejemplo simplemente tenía una errata (querían decir $1-2^{-i}$ en lugar de $2^{-i}$ ). De hecho, parece difícil calcular $\prod_{j=1}^{\infty}(1-2^{-j})$ exactamente, pero podemos demostrar que es positivo definiendo $$ y_n = \prod_{j=1}^{n} (1-2^{-j}) \quad \forall n \in \{2, 3, 4, ...\}$$ Entonces, para todos los $n \in \{2, 3, 4, ...\}$ obtenemos \begin{align} \log(y_n) &= \sum_{j=1}^n \log(1-2^{-j}) \\ &=\log(1-2^{-1}) + \sum_{j=2}^n\log(1-2^{-j})\\ &=\log(1/2) - \sum_{j=2}^n \log\left(1 + \frac{1}{2^j-1}\right)\\ &\overset{(a)}{\geq} \log(1/2) - \sum_{j=2}^n \frac{1}{2^j-1}\\ &\overset{(b)}{\geq} \log(1/2) - \sum_{j=2}^n \frac{1}{2^{j}-(1/2)2^{j}} \\ &\geq \log(1/2) - \sum_{j=2}^{\infty}\frac{1}{2^{j}-(1/2)2^{j}}\\ &= \log\left(\frac{1}{2e}\right) \end{align} donde (a) utiliza $\log(1+x)\leq x$ para todos $x>-1$ (b) utiliza $\frac{1}{2^j-1}\leq \frac{1}{2^{j}-(1/2)2^{j}}$ para $j \geq 2$ . Así, $$ y_n \geq \frac{1}{2e} \approx 0.1839 \quad \forall n \in \{2, 3, 4, ...\} $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X