Estaba revisando la documentación de Stan que puede descargarse de aquí . Me interesó especialmente su aplicación del diagnóstico Gelman-Rubin. El documento original Gelman y Rubin (1992) definen el factor potencial de reducción de escala (PSRF) de la siguiente manera:
Sea $X_{i,1}, \dots , X_{i,N}$ sea el $i$ ª cadena de Markov muestreada, y que haya globalmente $M$ cadenas independientes muestreadas. Sea $\bar{X}_{i\cdot}$ sea la media de los $i$ ª cadena, y $\bar{X}_{\cdot \cdot}$ sea la media global. Definir, $$W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m}, $$ donde $$s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (X_{m t} - \bar{X}_{m \cdot})^2\,. $$ Y definir $B$ $$B = \dfrac{N}{M-1} \sum_{m=1}^{M} (\bar{X}_{m \cdot} - \bar{X}_{\cdot \cdot})^2 \,.$$
Defina $$\hat{V} = \left(\dfrac{N-1}{N} \right)W + \left( \dfrac{M+1}{MN} \right)B\,.$$ El PSRF se estima con $\sqrt{\hat{R}}$ donde $$ \hat{R} = \dfrac{\hat{V}}{W} \cdot \dfrac{df+3}{df+1}\,,$$ donde $df = 2\hat{V}/Var(\hat{V})$ .
La documentación de Stan en la página 349 ignora el término con $df$ y también elimina el $(M+1)/M$ término multiplicativo. Esta es su fórmula,
El estimador de la varianza es $$\widehat{\text{var}}^{+}(\theta \, | \, y) = \frac{N-1}{N} W + \frac{1}{N} B\,.$$ Por último, la estadística de reducción de escala potencial se define por $$ \hat{R} = \sqrt{\frac{\widehat{\text{var}}^{+}(\theta \, | \, y) }{W}}\,. $$
Por lo que he podido ver, no proporcionan una referencia para este cambio de fórmula, y tampoco lo discuten. Normalmente $M$ no es demasiado grande, y a menudo puede ser tan bajo como $2$ Así que $(M+1)/M$ no debe ignorarse, aunque el $df$ puede aproximarse con 1.
¿De dónde procede esta fórmula?
EDITAR: He encontrado una respuesta parcial a la pregunta " ¿de dónde procede esta fórmula? ", ya que el Análisis bayesiano de datos, de Gelman, Carlin, Stern y Rubin (Segunda edición) tiene exactamente la misma fórmula. Sin embargo, el libro no explica cómo/por qué está justificado ignorar esos términos?