3 votos

¿Qué es la condición de mezcla en los procesos de decisión de Markov?

¿Qué es una condición de mezcla de un MDP? Estoy leyendo un documento llamado Expertos en un Proceso de Decisión de Markov, y dice

Antes de presentar nuestro algoritmo, conviene hacer algunas definiciones. En toda política estacionaria $\pi(a|s)$ definimos $P^{\pi}$ para ser la matriz de transición inducida por $\pi$ donde el componente $[P^{\pi}]_{s, > s'}$ es la probabilidad de transición de $s$ a $s'$ en $\pi$ . También, defina $d_{\pi, t}$ para ser la distribución del estado en el momento $t$ cuando siguiendo $\pi$ , es decir $$d_{\pi, t} = d_1(P^{\pi})^t $$ donde estamos tratando $d_1$ como un vector de fila aquí.

Supuesto 1 (Mezcla) Asumimos el modelo de transición sobre los estados, como determinado por $\pi$ tiene una distribución estacionaria bien definida, que llamamos llamamos $d_{\pi}$ . Más formalmente, para cada estado inicial $s$ , $d_{\pi,t}$ converge a $d_{\pi, t}$ converge a $d_{\pi}$ como $t$ tiende a infinito y $d_{\pi}P^{\pi} = d_{\pi}$ . Además, esto implica que existe algún $\tau$ tal que para todas las políticas $\pi$ y distribuciones $d$ y $d'$ , $$|| dP^{\pi} - d'P^{\pi}||_1 \le e^{-1/\tau}||d - d' || _1$$ donde $||x||_1$ denota el $l_1$ norma de un vector $x$ . Nos referimos a $\tau$ como el tiempo de mezcla y suponiendo que $\tau > 1$ .

¿Qué dice exactamente la desigualdad? Mi interpretación cruda dice que el lado izquierdo es la distancia entre las distribuciones de los próximos estados y el lado derecho es la distancia exponencialmente reducida entre cualquier distribución de estados. ¿Cómo es que $\tau$ una constante de mezcla que garantice dicho límite?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X