Parece que es muy alto, pero esto es contrario a la intuición para mí. ¿Puede alguien explicarlo? Estoy muy confundido por este tema y agradecería una explicación detallada y perspicaz. Muchas gracias de antemano.
Respuestas
¿Demasiados anuncios?(Escribí esto como una respuesta a otro post, que fue marcado como un duplicado de este mientras lo estaba componiendo; pensé que lo publicaría aquí en lugar de tirarlo. Parece que dice cosas bastante similares a la respuesta de whuber pero es lo suficientemente diferente como para que alguien pueda sacar algo de esta).
Un paseo aleatorio es de la forma $y_t = \sum_{i=1}^t \epsilon_i$
Tenga en cuenta que $y_t = y_{t-1}+ \epsilon_t$
Por lo tanto, $\text{Cov}(y_t,y_{t-1})=\text{Cov}(y_{t-1}+ \epsilon_t,y_{t-1})=\text{Var}(y_{t-1})$ .
También hay que tener en cuenta que $\sigma^2_t=\text{Var}(y_t) = t\,\sigma^2_\epsilon$
En consecuencia, $\text{corr}(y_t,y_{t-1})=\frac{\sigma_{t-1}^2}{\sigma_{t-1}\sigma_t} =\frac{\sigma_{t-1}}{\sigma_t}=\sqrt{\frac{t-1}{t}}=\sqrt{1-\frac{1}{t}}\approx 1-\frac{1}{2t}$ .
Es decir, debería ver una correlación de casi 1 porque en cuanto $t$ empieza a ser grande, $y_t$ y $y_{t-1}$ son casi exactamente lo mismo: la diferencia relativa entre ellos tiende a ser bastante pequeña.
Esto se puede ver más fácilmente al trazar $y_t$ vs $y_{t-1}$ .
Ahora podemos verlo de forma algo intuitiva imagina $y_{t-1}$ ha bajado a $-20$ (como vemos que hizo en mi simulación de un paseo aleatorio con término de ruido normal estándar). Entonces $y_t$ va a estar muy cerca de $-20$ ; puede ser $-22$ o puede ser $-18.5$ pero es casi seguro que está a unas pocas unidades de $-20$ . Así que mientras la serie va subiendo y bajando, la trama de $y_t$ vs $y_{t-1}$ va a permanecer casi siempre dentro de un rango bastante estrecho de la $y=x$ línea... pero como $t$ crece los puntos cubrirán tramos cada vez más grandes a lo largo de ese $y=x$ línea (la dispersión a lo largo de la línea crece con $\sqrt{t}$ pero la dispersión vertical se mantiene más o menos constante); la correlación debe acercarse a 1.
En el contexto de su pregunta anterior un "paseo aleatorio" es uno realización $(x_0, x_1, x_2, \ldots, x_n)$ de un paseo aleatorio binomial. La autocorrelación es la correlación entre el vector $(x_0, x_1, \ldots, x_{n-1})$ y el vector de los siguientes elementos $(x_1,x_2, \ldots, x_n)$ .
La propia construcción de un paseo aleatorio binomial hace que cada $x_{i+1}$ para diferir de cada uno $x_i$ por una constante. Después de ejecutar el paseo durante un tiempo, los valores de $x_i$ se habrá alejado del valor inicial $x_0$ y, por tanto, suele cubrir un buen rango, normalmente proporcional a $\sqrt{n}$ en longitud. Así, el gráfico de dispersión de lag-1 del $(x_i, x_{i+1})$ Los pares estarán formados por puntos situados sólo en las líneas $y=x\pm 1$ , estando por término medio cerca de la línea $y=x$ . Los residuos se acercarán a $\pm 1$ . Por lo tanto, en la gran mayoría de las realizaciones, la varianza de los residuos (alrededor de $1$ ) en comparación con la varianza de los valores (aproximadamente del orden de $(\sqrt{n}/2)^2 = n/4$ ) será pequeño. Es de esperar que $R^2$ para ser aproximadamente
$$R^2 \approx 1 - \frac{1}{n/4} = 1 - \frac{4}{n}.$$
Aquí hay una imagen de $n=1000$ pasos de un paseo aleatorio (a la izquierda) y su gráfico de dispersión de lag-1 (a la derecha). El código de colores se utiliza para ayudarle a encontrar los puntos correspondientes en los dos gráficos. Observe que $R^2$ está muy cerca de $1 - 4/n$ en este caso.
Aquí está el R
código que produjo las imágenes.
set.seed(17)
n <- 1e3
x <- cumsum((runif(n) <= 1/2)*2-1) # Binomial random walk at x_0=0
rho <- format(cor(x[-1], x[-n]), digits=3) # Lag-1 correlation
par(mfrow=c(1,2))
plot(x, type="l", col="#e0e0e0", main="Sample Path")
points(x, pch=16, cex=0.75, col=hsv(1:n/n, .8, .8, .2))
plot(x[-n], x[-1], asp=1, pch=16, col=hsv(1:n/n, .8, .8, .2),
main="Lag-1 Scatterplot",
xlab="Current value", ylab="Next value")
mtext(bquote(rho == .(rho)))