18 votos

Diagnóstico de convergencia de Gelman y Rubin, ¿cómo generalizar para trabajar con vectores?

El diagnóstico de Gelman y Rubin se utiliza para verificar la convergencia de múltiples cadenas mcmc ejecutadas en paralelo. Compara la varianza dentro de la cadena con la varianza entre cadenas, la exposición está abajo:

Pasos (para cada parámetro):

  1. Ejecutar m 2 cadenas de longitud 2n desde valores iniciales sobredispersos.
  2. Descartar los primeros n dibujos en cada cadena.
  3. Calcular la varianza dentro de la cadena y entre cadenas.
  4. Calcular la varianza estimada del parámetro como una suma ponderada de la varianza dentro de la cadena y entre cadenas.
  5. Calcular el factor de reducción de escala potencial.
  6. Elemento de lista

Quiero usar esta estadística pero las variables con las que quiero usarla son vectores aleatorios.

¿Tiene sentido tomar la media de las matrices de covarianza en este caso?

20voto

SHU Puntos 18

Una recomendación: calcular el PSRF por separado para cada componente escalar

El artículo original de Gelman & Rubin [1], así como el libro Bayesian Data Analysis de Gelman et al. [2], recomienda calcular el factor de reducción de la escala potencial (PSRF por sus siglas en inglés) por separado para cada parámetro escalar de interés. Para deducir la convergencia, se requiere entonces que todos los PSRF estén cerca de 1. No importa que sus parámetros se interpreten como vectores aleatorios, sus componentes son escalares para los cuales puede calcular PSRF.

Brooks & Gelman [3] han propuesto una extensión multivariante del PSRF, la cual reviso en la siguiente sección de esta respuesta. Sin embargo, para citar a Gelman & Shirley [4]:

[...] estos métodos a veces pueden ser excesivos: los parámetros individuales pueden estimarse correctamente incluso mientras que la convergencia aproximada de las simulaciones de una distribución multivariante puede llevar mucho tiempo.

Alternativa: extensión multivariante por Brooks & Gelman

Brooks & Gelman [3] proponen una extensión multivariante del PSRF, donde efectivamente se calcula la matriz de covarianza estimada (su paso 4) como una suma ponderada de las matrices de covarianza dentro de la cadena ($W$) y entre cadenas ($B$) (su paso 3): \begin{equation} \hat{V} = \frac{n-1}{n}W + \left ( 1 + \frac{1}{m} \right )\frac{B}{n}, \end{equation} donde $n$ es la longitud de la cadena. Luego, es necesario definir alguna métrica escalar para la distancia entre las matrices de covarianza $\hat{V},W$. Los autores proponen \begin{equation} \hat{R} = \max_a \frac{a^T\hat{V}a}{a^TWa} = \frac{n-1}{n} + \left(\frac{m+1}{m}\right)\lambda_1, \end{equation} donde $m$ es el número de cadenas, la igualdad se muestra en el artículo con $\lambda_1$ siendo el mayor valor propio positivo de $W^{-1}\hat{V}/n$. Luego, los autores argumentan que bajo la convergencia de las cadenas, $\lambda_1\rightarrow 0$ y así con un gran $n$, este multivariante $\hat{R}$ debería converger cerca de 1.

Referencias

[1] Gelman, Andrew, y Donald B. Rubin. "Inference from iterative simulation using multiple sequences." Statistical Science (1992): 457-472.

[2] Gelman, Andrew, et al. Bayesian data analysis. CRC press, 2013.

[3] Brooks, Stephen P., y Andrew Gelman. "General methods for monitoring convergence of iterative simulations." Journal of Computational and Graphical Statistics 7.4 (1998): 434-455.

[4] Gelman, Andrew, y Kenneth Shirley. "Inference from simulations and monitoring convergence". (Chapter 6 in Brooks, Steve, et al., eds. Handbook of Markov Chain Monte Carlo. CRC Press, 2011.)

Todos los artículos excepto el libro de texto [2] están disponibles en el sitio web de Andrew Gelman Sitio web de Andrew Gelman.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X