10 votos

Puede MCMC iteraciones después de la quemadura en ser utilizado para la estimación de densidad?

Después de burn-in, podemos utilizar directamente la MCMC iteraciones para la estimación de densidad, como por el trazado de un histograma, o estimación de densidad de kernel? Mi preocupación es que la MCMC iteraciones no son necesariamente independientes, aunque en la mayoría de los idénticamente distribuidas.

¿Y si además de aplicar el adelgazamiento de la MCMC iteraciones? Mi preocupación es que la MCMC iteraciones son en la mayoría de los correlacionadas, y aún no independiente.

La tierra que he aprendido para el uso de una distribución empírica de la función como una estimación de la verdadera función de distribución se basa en Glivenko–Cantelli teorema, donde empírica de la función de distribución se calcula sobre la base de un alcoholímetro de la muestra. Me pareció ver algunos motivos (asintótica resultados?) para el uso de histogramas, o de densidad de kernel estimaciones de la densidad de las estimaciones, pero no puedo recordar.

10voto

AdamSane Puntos 1825

Usted puede - y la gente - estimación de las densidades de MCMC de muestreo.

Una cosa a tener en cuenta es que mientras los histogramas y KDEs son convenientes, al menos en los casos más sencillos (como el muestreo de Gibbs), mucho más eficiente de las estimaciones de densidad pueden estar disponibles.

Si tenemos en cuenta muestreo de Gibbs en particular, la densidad condicional estás muestreo puede ser utilizado en lugar de la muestra valor en sí mismo en la producción de un promedio de estimación de la densidad. El resultado suele ser bastante suave.

El enfoque se describe en

Gelfand y Smith (1990), "El muestreo de los Enfoques Basados en el Cálculo de Densidades Marginales"
Revista de la Asociación Americana de Estadística, Vol. 85, Nº 410, pp 398-409

(aunque Geyer advierte que si el sampler de la dependencia es lo suficientemente alto no siempre de reducir la varianza y da las condiciones para hacerlo)

Este enfoque también se discute, por ejemplo, en Robert, C. P. y Casella, G. (1999) Monte Carlo Métodos Estadísticos.

Usted no necesita de la independencia, en realidad estás calcular un promedio. Si desea calcular el error estándar de una estimación de la densidad (o un cdf), entonces se tiene en cuenta la dependencia.

La misma idea se aplica a otras expectativas, por supuesto, y para que pueda ser utilizado para mejorar las estimaciones de muchos otros tipos de media.

3voto

Maz Puntos 1

Curriculum vitae

Usted puede utilizar directamente la MCMC iteraciones para nada, porque el valor promedio de su observable será asintóticamente enfoque del valor real (porque usted está después de la quemadura-en).

Sin embargo, tenga en cuenta que la varianza de esta media está influida por las correlaciones entre las muestras. Esto significa que si las muestras están correlacionadas, como es común en MCMC, almacenando cada medida no traerá ninguna ventaja real.

En teoría, usted debe medir después de N pasos, donde N es del orden de la autocorrelación tiempo de la observables que se está midiendo.

Explicación detallada

Vamos a definir una notación formal de responder a su pregunta. Deje $x_t$ ser el estado de su MCMC simulación en tiempo $t$, supone mucho más alto que el de la quemadura-en el tiempo. Deje $f$ ser observables que desea medir.

Por ejemplo, $x_t \in \mathbb{R}$, e $f=f_a(x)$: "1 si $x\in[a,a+\Delta]$, 0 los demás". $x_t$ es, naturalmente, ser extraída de una distribución $P(x)$, que hace uso de MCMC.

En cualquier muestreo, usted necesitará siempre para calcular un promedio de un observable $f$, que hace uso de un estimador:

$$F = \frac{1}{N}\sum_{i=1}^N f(x_i)$$

Vemos que el valor promedio de este estimador $\langle F\rangle$ (en lo que respecta a $P(x)$) es

$$\langle F \rangle = \frac{1}{N}\sum_{i=1}^N \langle f(x_i)\rangle = \langle f(x)\rangle$$

que es lo que quieres obtener.

La principal preocupación es que cuando se calcula la varianza de este estimador, $\langle F^2 \rangle - \langle F \rangle^2$, puede obtener los términos de la forma

$$\sum_{i=1}^N\sum_{j=1}^N \langle f(x_i)f(x_j)\rangle$$

que no anulan si $x_t$ de correlación entre las muestras. Por otra parte, porque puede escribir $j=i+\Delta$, se puede escribir la anterior suma doble como la suma de la función de autocorrelación de $f$, $R(\Delta)$

Así que, para recapitular:

  • Si computacionalmente no cuesta nada para almacenar cada medida, puede hacerlo, pero ten en cuenta que la varianza no puede calcularse mediante la fórmula habitual.

  • Si es computacionalmente costoso para medir la en cada paso de la MCMC, usted tiene que encontrar una manera de calcular el acumulado de la autocorrelación tiempo $\tau$ y realizar las mediciones de cada $\tau$. En este caso, las mediciones son independientes y por lo tanto usted puede utilizar la fórmula habitual de la varianza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X