35 votos

¿Por qué el paseo aleatorio interrelacionadas?

He observado que, en promedio, el valor absoluto del coeficiente de correlación de Pearson es una constante cerca de la 0.560.42 para cualquier par de independiente paseo aleatorio, independientemente de la duración de caminata.

Alguien puede explicar este fenómeno?

Yo esperaba que las correlaciones para obtener más pequeñas, como el paseo de la longitud aumenta, al igual que con cualquier secuencia aleatoria.

Para mis experimentos he utilizado aleatorio gaussiano camina con paso media 0 y paso desviación estándar de 1.

ACTUALIZACIÓN:

Se me olvidó el centro de los datos, por eso fue 0.56 en lugar de 0.42.

Aquí está la secuencia de comandos de Python para calcular las correlaciones:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))

30voto

Martin Robins Puntos 1893

Intuitivamente, se puede adivinar (incorrectamente) que:

  1. La independencia entre dos procesos de $\{X_t\}$ $\{Y_t\}$ implica que tienen una correlación cero (es decir, $\rho_{XY} = \frac{E[(X-\mu_X)(Y-\mu_Y)}{\sigma_X \sigma_Y} = 0$ donde$\mu_X = E[X]$$\sigma_X = \sqrt{E[(X-\mu_X)^2]}$).
  2. La serie de tiempo, muestra la correlación $\hat{\rho}_{XY}$ (es decir, el coeficiente de correlación calculado utilizando series de tiempo, muestra estadísticas como $\hat{\mu_X} = \frac{1}{T} \sum_{\tau = 1}^T X_\tau$) se reunirán en la población, el coeficiente de correlación de $\rho_{XY}$$T \rightarrow \infty$.

El problema es que ninguna de estas afirmaciones son verdaderas para el paseo aleatorio! (Que son verdaderas para un mejor comportamiento de los procesos.)

Los problemas en el caso de una caminata al azar?

  1. Para una caminata al azar, incondicional de la población momentos (que no depende del tiempo $t$), como $E[X]$, no existen. (Básicamente son infinitas.) Del mismo modo, el incondicional, el coeficiente de correlación de $\rho_{XY}$ entre los dos independientes paseo aleatorio no es cero; en realidad no existe!
  2. Los supuestos de ergodic teoremas no se aplican y diversas series de tiempo de los promedios (por ejemplo. $\frac{1}{T} \sum_\tau X_\tau$) no convergen hacia nada como $T \rightarrow \infty$.

Si usted tiene varias de las observaciones de dos independientes caminos aleatorios a lo largo del tiempo (por ejemplo,. $X_1$, $X_2$, etc... y $Y_1$, $Y_2$, ....) y calcular la muestra coeficiente de correlación, usted recibirá un número de entre $-1$$1$. Pero no será una aproximación de la población coeficiente de correlación (que no existe).

En su lugar, $\hat{\rho}_{XY}(T)$ (calculado utilizando series de tiempo de los promedios de$t=1$$t=T$), básicamente, una variable aleatoria (tomando valores en $[-1, 1]$) que refleja las dos rutas de acceso al paseo aleatorio tomó por casualidad (es decir, las rutas definidas por el sorteo, $\omega$ extraídas de espacio muestral $\Omega$.)

  • Si tanto $X_t$ $Y_t$ pasó a vagar en la misma dirección, podrá detectar un falso positivo de la relación.
  • Si $X_t$ $Y_t$ alejó en diferentes direcciones, podrás detectar un falso negativo de la relación.
  • Si $X_t$ $Y_t$ pasó a vagar a través de cada uno de los otros lo suficiente, podrás detectar una cerca de cero relación.

Usted puede buscar en Google más información acerca de este con los términos spurious regression random walk.

Un paseo aleatorio no es estacionaria y tomando los promedios a lo largo del tiempo $t$ no convergen en lo que se obtendría por tomar iid dibuja $\omega$ desde en el espacio muestral $\Omega$. Como se ha mencionado en los comentarios anteriores, usted puede tomar primeras diferencias $\Delta x_t = x_t - x_{t-1}$, y para una caminata al azar, que el proceso de $\{\Delta x_t\}$ es estacionaria.

Gran imagen de la idea:

Recordemos que un discreto tiempo de proceso estocástico $\{ X_t \}$ es una función de tiempo ($t \in \mathbb{N}$) y un espacio muestral $\Omega$.

Para los promedios en el tiempo $t$ a converger hacia las expectativas a través de espacio muestral $\Omega$, usted necesita estacionariedad y ergodicity. Esta es una cuestión fundamental en mucho tiempo-el análisis de las series. Y un paseo aleatorio no es un proceso estacionario.

Conexión a WHuber la respuesta:

Si usted puede tomar los promedios a través de múltiples simulaciones (es decir, tomar múltiples sorteos de $\Omega$) en lugar de ser forzado a tomar los promedios de tiempo de $t$, un número de sus problemas desaparecen.

Por supuesto, usted puede definir $\hat{\rho}_{XY}(t)$ como muestra el coeficiente de correlación calculado en $X_1\ldots X_t$ $Y_1 \ldots Y_t$ y esto también va a ser un proceso estocástico.

Usted puede definir la variable aleatoria $Z_t$ como:

$$Z_t = |\hat{\rho}_{XY}(t)|$$

For two random walks starting at $0$ with $\mathcal{N}(0,1)$ increments, it's easy to find $E[Z_{10000}]$ by simulation (i.e. taking multiple draws from $\Omega$.)

Below, I ran a simulation of 10,000 calculations of a sample Pearson correlation coefficient. Each time I:

  • Simulated two 10,000 length random walks (with normally distributed increments draw from $\mathcal{N}(0,1)$).
  • Calcula la muestra coeficiente de correlación entre ellos.

A continuación es un histograma que muestra la distribución empírica sobre los 10000 calculado los coeficientes de correlación.

enter image description here

Claramente se puede observar que la variable aleatoria $\hat{\rho}_{XY}(10000)$ puede ser por todo el lugar en el intervalo de $[-1, 1]$. Para las dos rutas de acceso fijas de $X$$Y$, la muestra coeficiente de correlación no convergen en algo como la longitud de la serie de tiempo aumenta.

Por otro lado, para un determinado tiempo (por ejemplo. $t=10,000$), la muestra coeficiente de correlación es una variable aleatoria con un número finito de media, etc... Si puedo tomar el valor absoluto y calcular el promedio sobre todas las simulaciones, tengo que calcular aproximadamente .42. No estoy seguro de por qué quieres hacer esto o por qué esto es real??, pero, por supuesto, usted puede.

Código:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))

16voto

jldugger Puntos 7490

Las matemáticas necesarias para obtener un resultado exacto es complicado, pero podemos obtener un valor exacto para la esperada al cuadrado el coeficiente de correlación relativamente sin dolor. Esto ayuda a explicar por qué un valor cercano a los $1/2$ sigue mostrando y por qué el aumento de la longitud de la $n$ de la caminata aleatoria no va a cambiar las cosas.

Existe el potencial para la confusión acerca de los términos estándar. La correlación absoluta mencionados en la pregunta, junto con las estadísticas que hacer-de varianzas y covarianzas--son fórmulas que se pueden aplicar a cualquier par de realizaciones de paseo aleatorio. La cuestión de preocupación lo que sucede cuando nos fijamos en muchas realizaciones independientes. Para eso, tenemos que tomar las expectativas sobre el proceso de caminata aleatoria.


(Edit)

Antes de continuar, quiero compartir algunas gráfica de ideas con usted. Un par de independiente caminos aleatorios $(X,Y)$ es una caminata aleatoria en dos dimensiones. Podemos trazar la ruta que los pasos de cada una de las $(X_t,Y_t)$$X_{t+1},Y_{t+1}$. Si este camino tiende hacia abajo (de izquierda a derecha, trazan los ejes X-Y), a continuación, con el fin de estudiar el valor absoluto de la correlación, vamos a anular todo el $Y$ valores. Parcela de los paseos en los ejes de tamaño para dar la $X$ $Y$ valores de la igualdad de las desviaciones estándar y superponer el ajuste de mínimos cuadrados de $Y$$X$. Las pendientes de estas líneas serán los valores absolutos de los coeficientes de correlación, la mentira siempre entre el$0$$1$.

Esta figura muestra $15$ tales paseos, cada uno de longitud $960$ (con el estándar de las diferencias Normales). Poco círculos abiertos marca de sus puntos de partida. Los círculos oscuros marcar su ubicación final.

Figure

Estos pendientes tienden a ser bastante grandes. Perfectamente aleatoria diagramas de dispersión de esto muchos puntos siempre tienen pendientes muy cerca de cero. Si tuviéramos que describir los patrones emergentes de aquí, se podría decir que la mayoría de 2D el paseo aleatorio poco a poco migrar de un lugar a otro. (Estos no son necesariamente de partida y las ubicaciones de los extremos, sin embargo!) Alrededor de la mitad del tiempo, entonces, de que la migración se produce en una dirección diagonal--y la pendiente es consecuencia de alto.

El resto de este post bocetos de un análisis de esta situación.


Un paseo aleatorio $(X_i)$ es una secuencia de sumas parciales de $(W_1, W_2, \ldots, W_n)$ cuando la $W_i$ son independientes idénticamente distribuidas cero significa variables. Deje que su varianza común ser $\sigma^2$.

En una realización de $x = (x_1, \ldots, x_n)$ de un pie, la "varianza" sería calculada como si se tratara de cualquier conjunto de datos:

$$\operatorname{V}(x) = \frac{1}{n}\sum (x_i-\bar x)^2.$$

A nice way to compute this value is to take half the average of all the squared differences:

$$\operatorname{V}(x) = \frac{1}{n(n-1)}\sum_{j \gt i} (x_j-x_i)^2.$$

When $x$ is viewed as the outcome of a random walk $X$ of $n$ steps, the expectation of this is

$$\mathbb{E}(\operatorname{V}(X)) = \frac{1}{n(n-1)}\sum_{j \gt i} \mathbb{E}(X_j-X_i)^2.$$

The differences are sums of iid variables,

$$X_j - X_i = W_{i+1} + W_{i+2} + \cdots + W_j.$$

Expand the square and take expectations. Because the $W_k$ are independent and have zero means, the expectations of all cross terms are zero. That leaves only terms like $W_k$, whose expectation is $\sigma^2$. Thus

$$\mathbb{E}((W_{i+1} + W_{i+2} + \cdots + W_j^2)) = (j-i)\sigma^2.$$

It easily follows that

$$\mathbb{E}(\operatorname{V}(X)) = \frac{1}{n(n-1)}\sum_{j \gt i} (j-i)\sigma^2 = \frac{n+1}{6}\sigma^2.$$

The covariance between two independent realizations $x$ and $y$--again in the sense of datasets, not random variables--can be computed with the same technique (but it requires more algebraic work; a quadruple sum is involved). The result is that the expected square of the covariance is

$$\mathbb{E}(\operatorname{C}(X,Y)^2) = \frac{3n^6-2n^5-3n^2+2n}{480n^2(n-1)^2}\sigma^4.$$

Consequently the expectation of the squared correlation coefficient between $X$ and $Y$, taken out to $n$ steps, is

$$\rho^2(n) = \frac{\mathbb{E}(\operatorname{C}(X,Y)^2)}{\mathbb{E}(\operatorname{V}(X))^2} = \frac{3}{40}\frac{3n^3-2n^2+3n-2}{n^3-n}.$$

Although this is not constant, it rapidly approaches a limiting value of $9/40$. Its square root, approximately $0.47$, therefore approximates the expected absolute value of $\rho(n)$ (and underestimates it).


I am sure I have made computational errors, but simulations bear out the asymptotic accuracy. In the following results showing the histograms of $\rho^2(n)$ for $1000$ simulations each, the vertical red lines show the means while the dashed blue lines show the formula's value. Clearly it's incorrect, but asymptotically it is right. Evidently the entire distribution of $\rho^2(n)$ is approaching a limit as $n$ increases. Similarly, the distribution of $|\rho(n)|$ (que es la cantidad de interés) se acerca a un límite.

Figure

Esta es la R código para producir la figura.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X