27 votos

Definición del tiempo de autocorrelación (para el tamaño efectivo de la muestra)

He encontrado dos definiciones en la literatura para el tiempo de autocorrelación de una serie temporal débilmente estacionaria:

$$ \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| $$

où $\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}$ es la autocorrelación en el retardo $k$ .

Una aplicación del tiempo de autocorrelación es encontrar el "tamaño efectivo de la muestra": si se tiene $n$ observaciones de una serie temporal, y se conoce su tiempo de autocorrelación $\tau$ Entonces puedes fingir que tienes

$$ n_\text{eff} = \frac{n}{\tau} $$

muestras independientes en lugar de $n$ correlacionados a efectos de encontrar la media. Estimación de $\tau$ de los datos no es trivial, pero hay algunas formas de hacerlo (véase Thompson 2010 ).

La definición sin valores absolutos, $\tau_a$ parece más común en la literatura; pero admite la posibilidad de $\tau_a<1$ . Utilizando R y el paquete "coda":

require(coda)
ts.uncorr <- arima.sim(model=list(),n=10000)         # white noise 
ts.corr <- arima.sim(model=list(ar=-0.5),n=10000)    # AR(1)
effectiveSize(ts.uncorr)                             # Sanity check
    # result should be close to 10000
effectiveSize(ts.corr)
    # result is in the neighborhood of 30000... ???

La función "effectiveSize" en "coda" utiliza una definición del tiempo de autocorrelación equivalente a $\tau_a$ , arriba. Hay algunos otros paquetes de R que calculan el tamaño efectivo de la muestra o el tiempo de autocorrelación, y todos los que he probado dan resultados consistentes con esto: que un proceso AR(1) con un coeficiente AR negativo tiene más muestras efectivas que las series temporales correlacionadas. Esto parece extraño.

Obviamente, esto nunca puede ocurrir en el $\tau_b$ definición de tiempo de autocorrelación.

¿Cuál es la definición correcta de tiempo de autocorrelación? ¿Hay algún error en mi comprensión del tamaño efectivo de las muestras? El $n_\text{eff} > n$ El resultado que se muestra arriba parece que debe ser erróneo... ¿qué está pasando?

1 votos

Sólo para asegurarme de que no he entendido mal, ¿no se supone que eso es $Cov(X_t,X_{t+k})$ en lugar del $h$ ?

2 votos

Me interesa la segunda definición, es decir, $\tau_b$ . ¿Podría facilitar la bibliografía donde lo encontró?

0 votos

Tienes razón @sachinruk, debería estar indexado con k.

23voto

Nathan Long Puntos 30303

En primer lugar, la definición adecuada de "tamaño efectivo de la muestra" está vinculada, según la OMI, a una cuestión bastante específica. Si $X_1, X_2, \ldots$ se distribuyen idénticamente con la media $\mu$ y la varianza 1 la media empírica $$\hat{\mu} = \frac{1}{n} \sum_{k=1}^n X_k$$ es un estimador insesgado de $\mu$ . Pero, ¿qué pasa con su varianza? Para independiente variables la varianza es $n^{-1}$ . Para una serie temporal débilmente estacionaria, la varianza de $\hat{\mu}$ es $$\frac{1}{n^2} \sum_{k, l=1}^n \text{cov}(X_k, X_l) = \frac{1}{n}\left(1 + 2\left(\frac{n-1}{n} \rho_1 + \frac{n-2}{n} \rho_2 + \ldots + \frac{1}{n} \rho_{n-1}\right) \right) \simeq \frac{\tau_a}{n}.$$ La aproximación es válida para un tamaño suficientemente grande $n$ . Si definimos $n_{\text{eff}} = n/\tau_a$ la varianza de la media empírica para una serie temporal débilmente estacionaria es aproximadamente $n_{\text{eff}}^{-1}$ , que es la misma varianza que si tuviéramos $n_{\text{eff}}$ muestras independientes. Así, $n_{\text{eff}} = n/\tau_a$ es una definición adecuada si pedimos la varianza de la media empírica. Podría ser inadecuada para otros fines.

Con una correlación negativa entre las observaciones es ciertamente posible que la varianza sea menor que $n^{-1}$ ( $n_{\text{eff}} > n$ ). Esta es una técnica bien conocida de reducción de la varianza en la integración de Monto Carlo: Si introducimos una correlación negativa entre las variables en lugar de una correlación 0, podemos reducir la varianza sin aumentar el tamaño de la muestra.

3 votos

Para quien quiera saber más sobre el uso de la correlación negativa en la simulación de Montecarlo, intente buscar en Google "variantes antitéticas". Más información en los apuntes del curso aquí o aquí .

0 votos

En esta estimación, suponemos que conocemos la verdadera varianza de la distribución. ¿Cómo se escribiría la varianza de la media muestral en términos de la varianza muestral? ¿Similar al argumento t-Student para los procesos IID pero con n_eff?

1voto

Dirk Puntos 11

Véase http://arxiv.org/pdf/1403.5536v1.pdf

y

https://cran.r-project.org/web/packages/mcmcse/mcmcse.pdf

para el tamaño de la muestra efectiva. Creo que la formulación alternativa que utiliza la relación entre la varianza de la muestra y la varianza asintótica de la cadena de Markov a través de la media del lote es un estimador más apropiado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X