En sentido estricto, MCMC significa construir una cadena de Markov que tenga alguna propiedad deseada (por lo general, una distribución de equilibrio o una expectativa preestablecidas) y, a continuación, extraer numéricamente muestras de ella. Si se le da una cadena de Markov, en realidad se denomina simulación de Montecarlo.
De todos modos, a cada hora fija t el valor de la cadena tendrá una determinada distribución, dada por p_0 P^t donde p_0 es la distribución inicial (escrita como un vector de filas) y P es la matriz de probabilidad de transición (en la convención fila-estocástica, es decir. \sum_{j=1}^n P_{ij}=1 ).
Así que el comportamiento a largo plazo de las distribuciones en cada fijo t viene determinado por el comportamiento de P^t como t \to \infty . Cualquier matriz estocástica tiene todos los valores propios de módulo como máximo 1 . También dispone de 1 como valor propio. El supuesto de ergodicidad nos dice además que el valor propio 1 tiene multiplicidad 1 y que todos sus demás valores propios tendrán módulo estrictamente inferior a 1 . (Sin irreducibilidad es posible que el valor propio 1 tiene una multiplicidad mayor; sin aperiodicidad es posible tener un valor propio como -1 o e^{2\pi i/3} .) La hipótesis de reversibilidad nos dice (entre otras cosas) que P es diagonalizable con valores propios reales (porque la reversibilidad proporciona una transformación de similitud que convierte a P en una matriz simétrica).
Como resultado de estos tres hechos se puede escribir
p_0 P^t = \pi + \sum_{i=2}^n c_i \lambda_i^t q_i
donde \lambda_i son valores propios menores que 1 en valor absoluto, q_i son los vectores propios izquierdos, y c_i son coeficientes que dependen de p_0 . Esto es justo lo que se obtiene al diagonalizar P^t (sin repasar y calcular el c_i ya que realmente no importan para esta presentación).
Puede ver que como t \to \infty los valores propios restantes decaerán debido a la potencia de t . Suponiendo que el c_i son todas significativas (la situación típica para una distribución inicial "aleatoria"), la el más lento decaimiento es por \lambda_{\max} ya que está más cerca de 1 en valor absoluto. Por tanto, cuanto mayor sea la brecha espectral \xi más rápida será la convergencia. Obsérvese que los valores propios negativos do asunto, por lo que lo escribió como \lambda_{\max}=\max \{ |\lambda_2|,|\lambda_n| \} .
La relación precisa entre la brecha espectral y las propiedades dinámicas de la cadena es más sutil que el resto de lo que he dicho aquí. En términos generales, cuando la brecha espectral es pequeña, el vector propio correspondiente a \lambda_{\max} que podría denominar "eigenvector metaestable", será significativo y positivo para un conjunto de estados y significativo y negativo para otro conjunto de estados. También podría ser menor en un tercer conjunto de estados.
El "eigenvector metaestable" corresponde entonces al lento intercambio de probabilidad entre los dos primeros conjuntos de estados (porque el decaimiento de su contribución a la distribución da lugar a un flujo de un conjunto al otro, dependiendo el conjunto de cuál sea el signo del correspondiente c_i ). Para más información, consulte metaestabilidad en cadenas de Markov. Para hacerse una idea, considere una matriz como
P=\begin{bmatrix} 1/3 & 2/3 & 0 & 0 \\ 1/4-\epsilon/2 & 3/4-\epsilon/2 & \epsilon & 0 \\ 0 & \epsilon & 1/5-\epsilon/2 & 4/5-\epsilon/2 \\ 0 & 0 & 1/6 & 5/6 \end{bmatrix}
donde 0<\epsilon \ll 1 es un parámetro pequeño. Para \epsilon=10^{-6} por ejemplo, esto tiene un equilibrio relativamente rápido dentro de los conjuntos \{ 1,2 \} y \{ 3,4 \} (impulsado por valores propios de 1/12 y 1/30 respectivamente) y un lento equilibrio entre ambos (impulsado por un valor propio de aproximadamente 1-10^{-6} ).