¿Qué es una condición de mezcla de un MDP? Estoy leyendo un documento llamado Expertos en un Proceso de Decisión de Markov, y dice
Antes de presentar nuestro algoritmo, conviene hacer algunas definiciones. En toda política estacionaria $\pi(a|s)$ definimos $P^{\pi}$ para ser la matriz de transición inducida por $\pi$ donde el componente $[P^{\pi}]_{s, > s'}$ es la probabilidad de transición de $s$ a $s'$ en $\pi$ . También, defina $d_{\pi, t}$ para ser la distribución del estado en el momento $t$ cuando siguiendo $\pi$ , es decir $$d_{\pi, t} = d_1(P^{\pi})^t $$ donde estamos tratando $d_1$ como un vector de fila aquí.
Supuesto 1 (Mezcla) Asumimos el modelo de transición sobre los estados, como determinado por $\pi$ tiene una distribución estacionaria bien definida, que llamamos llamamos $d_{\pi}$ . Más formalmente, para cada estado inicial $s$ , $d_{\pi,t}$ converge a $d_{\pi, t}$ converge a $d_{\pi}$ como $t$ tiende a infinito y $d_{\pi}P^{\pi} = d_{\pi}$ . Además, esto implica que existe algún $\tau$ tal que para todas las políticas $\pi$ y distribuciones $d$ y $d'$ , $$|| dP^{\pi} - d'P^{\pi}||_1 \le e^{-1/\tau}||d - d' || _1$$ donde $||x||_1$ denota el $l_1$ norma de un vector $x$ . Nos referimos a $\tau$ como el tiempo de mezcla y suponiendo que $\tau > 1$ .
¿Qué dice exactamente la desigualdad? Mi interpretación cruda dice que el lado izquierdo es la distancia entre las distribuciones de los próximos estados y el lado derecho es la distancia exponencialmente reducida entre cualquier distribución de estados. ¿Cómo es que $\tau$ una constante de mezcla que garantice dicho límite?