1 votos

Distribución estacionaria de la combinación convexa de cadenas de Markov

Dejemos que $P$ sea una matriz estocástica (de una cadena de Markov irreducible) con distribución estacionaria $\pi^T$ (es decir $\pi^T P = \pi^T$ ) y que además $E$ sea la matriz de todos los $1$ 's.

Dado un $\alpha \in [0,1]$ ¿es posible encontrar una expresión para la distribución estacionaria de $$\alpha P + \frac{(1-\alpha)}{n}E,$$ en función de $\pi$ y $\frac{1}{n}\mathbb{1}$ , donde $\mathbb{1}$ es el vector de todos los $1$ 's?

De forma más general, dadas dos matrices de transición de cadenas de Markov irreducibles $P_1$ y $P_2$ con distribuciones estacionarias $\pi_1^T$ y $\pi_2^T$ respectivamente. ¿Se puede encontrar una fórmula general para calcular la distribución estacionaria de $$\alpha P_1 + (1-\alpha)P_2 \quad,$$ para $\alpha \in [0,1]$ ?

1voto

AreaMan Puntos 3568

Si todo lo que se conoce son las distribuciones estacionarias, entonces no hay una fórmula general.

He aquí un ejemplo sencillo:

Toma $P$ , $Q$ sea irreducible, y $A$ la cadena de bucle propio en todas partes, entonces $P := eP + (1-e) A$ y $Q' := fQ + (1-f) A$ son irreducibles con las mismas distribuciones estacionarias que $P$ y $Q$ . $P'$ y $Q'$ son básicamente versiones perezosas de $P$ y $Q$ .

Por otra parte, para cada $\lambda \in (0,1)$ Puede elegir diferentes $e,f \in (0,1)$ para hacer $ X_{\lambda}(e,f) := \lambda P' + (1 - \lambda) Q' = \lambda e P + \lambda f Q + (1 - \lambda)( 2 - e - f) A$ tienen distribuciones estacionarias extremadamente diferentes.

En concreto, se puede demostrar que para todo $\lambda$ como la distribución estacionaria de $X_{\lambda}(e,f)$ converge a $\pi_P = \pi_{P'}$ como $f \to 0$ y converge a $\pi_Q = \pi_{Q'}$ como $e \to 0$ .


Esto es un montón de palabras -- todo lo que estoy diciendo es algo muy intuitivo: si $P'$ es extremadamente perezoso, entonces mezclarlo con $Q'$ puede tener muy poco efecto en la distribución estacionaria de la mezcla. Como si $P'$ es tan perezoso que sólo da un paso a un nuevo estado una vez en un millón de años, y $Q'$ energéticamente da pasos hacia nuevos estados cada segundo, y luego alterna $P'$ y $Q'$ es básicamente indistinguible de una versión más perezosa de $Q'$ .


Tenga en cuenta que puede hablar de la continuidad de la distribución estacionaria en $\lambda$ -- al considerar la $1$ eigenspaces de $P$ y $Q$ Esto es básicamente decir que si tengo un camino continuo de matrices, con núcleos unidimensionales, entonces los núcleos cambian continuamente. (Así es como demostraría la afirmación de dejar que $e \to 0$ arriba).

Prueba: Si $A_n \to A$ , dejemos que $v_n$ generan los núcleos de $A_n$ . Podemos suponer $||v_n|| = 1$ por lo que por compacidad podemos pasar a una subsecuencia convergente, digamos $v_n \to v$ .

Entonces tenemos $A_n(v_n) = ( A_n(v_n) - A(v_n) ) + (A(v_n) - A(v)) + A(v)$ .

$||A_n(v_n) - A(v_n) ||_2 \leq ||A_n - A||_2 \to 0$ y $A(v_n) - A(v) \to 0$ como $n$ hasta el infinito. Así que obtenemos que $A_n(v_n) \to A(v)$ por la desigualdad del triángulo. Como $A_n(v_n) = 0$ obtenemos que $A(v) = 0$ . Como $||v_n|| = 1$ obtenemos $||v|| = 1$ .

Desde $A$ tiene un núcleo unidimensional, es generado por $v$ . (Nótese que en general el núcleo de $A$ podría saltar de dimensión -- esto podría corresponder al caso de $P$ tienen una única distribución estacionaria, pero $Q$ no tener un estacionario único, por ejemplo, no ser ergódico).


Nota: La relación entre $A$ y $ker(A)$ es en realidad algebraica: al utilizar $ker(A) = im(A^T)^{\perp}$ (una isometría isomórfica en los Grassmannianos pertinentes), basta con controlar la tasa de cambio de la imagen. Para una matriz dada $A$ con un núcleo de dimensión 1, digamos que $I$ es un conjunto de indexación máxima de columnas linealmente independientes, los índices de algún conjunto de columsn que dan una base para la imagen. Cerca de $A$ , $I$ sigue funcionando como base de la imagen, debido a la continuidad del determinante. Las coordenadas de Plucker para la imagen son los determinantes de la $(n-1) \times (n-1)$ menores de $A_I$ (columnas de $A$ correspondientes a los índices $I$ ), por lo que están cambiando algebraicamente.

Esto significa que podría en principio utilizar la fórmula determinante-derivada para controlar la rapidez con la que el núcleo se mueve a lo largo de un camino de matrices $A$ (con todos los núcleos unidimensionales).

No estoy seguro de que esto pueda ser útil en una aplicación en la que no se pueda calcular el núcleo de $A$ (es decir, la distribución estacionaria de $\lambda P + (1 - \lambda) Q = I + A$ ).

Por ejemplo, al tapar el caso $A_m(t) = [tP + (1 - t) Q]_m$ (algún menor correspondiente de la mezcla) en la fórmula de la derivada determinante, $d/dt (det(A(t)) = det(A(t)) tr( A^{-1}(t) d/dt A(t))$ obtenemos $d/dt ( det(A(t)) = det ( A(t) ) tr( (A(t))^{-1} [P - Q]_m)$ . Para ver cómo la velocidad a la que $ker( tP + (1 - t)A)$ se desplaza por el Grassmanniano, hay que calcular un vector $(A_m(t))_{m \in minors(I)}$ para alguna elección local de $I$ , normalizar para que esto sea una trayectoria en la esfera, y luego calcular la derivada de la trayectoria resultante.

Esto parece un poco inútil, pero supongo que lo dejaré.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X