32 votos

¿Supone la correlación la estacionalidad de los datos?

El análisis entre mercados es un método para modelar el comportamiento del mercado mediante la búsqueda de relaciones entre diferentes mercados. A menudo, se calcula una correlación entre dos mercados, por ejemplo, el S&P 500 y los bonos del Tesoro estadounidense a 30 años. Estos cálculos suelen basarse en los datos de los precios, lo cual es obvio que no se ajusta a la definición de serie temporal estacionaria.

Dejando a un lado las posibles soluciones (utilizar los rendimientos en su lugar), ¿es el cálculo de la correlación cuyos datos no son estacionarios siquiera un cálculo estadístico válido?

¿Diría usted que ese cálculo de correlación es poco fiable, o simplemente un disparate?

46voto

Marc-Andre R. Puntos 789

La correlación mide la relación lineal. En el contexto informal, relación significa algo estable. Cuando calculamos la correlación muestral para variables estacionarias y aumentamos el número de puntos de datos disponibles, esta correlación muestral tiende a la correlación verdadera.

Se puede demostrar que para los precios, que suelen ser paseos aleatorios, la correlación de la muestra tiende a la variable aleatoria. Esto significa que, por muchos datos que tengamos, el resultado siempre será diferente.

Nota Intenté expresar la intuición matemática sin las matemáticas. Desde el punto de vista matemático la explicación es muy clara: Los momentos muestrales de los procesos estacionarios convergen en probabilidad a constantes. Los momentos muestrales de los paseos aleatorios convergen a integrales del movimiento browniano que son variables aleatorias. Dado que la relación suele expresarse como un número y no como una variable aleatoria, resulta evidente la razón de no calcular la correlación para las variables no estacionarias.

Actualización Dado que nos interesa la correlación entre dos variables supongamos primero que provienen de un proceso estacionario $Z_t=(X_t,Y_t)$ . La estacionariedad implica que $EZ_t$ y $cov(Z_t,Z_{t-h})$ no dependen de $t$ . Así que la correlación

$$corr(X_t,Y_t)=\frac{cov(X_t,Y_t)}{\sqrt{DX_tDY_t}}$$

tampoco depende de $t$ ya que todas las cantidades de la fórmula provienen de la matriz $cov(Z_t)$ que no depende de $t$ . Así que el cálculo de la correlación de la muestra

$$\hat{\rho}=\frac{\frac{1}{T}\sum_{t=1}^T(X_t-\bar{X})(Y_t-\bar{Y})}{\sqrt{\frac{1}{T^2}\sum_{t=1}^T(X_t-\bar{X})^2\sum_{t=1}^T(Y_t-\bar{Y})^2}}$$ tiene sentido, ya que podemos tener una esperanza razonable de que la correlación de la muestra estimará $\rho=corr(X_t,Y_t)$ . Resulta que esta esperanza no es infundada, ya que para procesos estacionarios que satisfacen ciertas condiciones tenemos que $\hat{\rho}\to\rho$ , como $T\to\infty$ en la probabilidad. Además $\sqrt{T}(\hat{\rho}-\rho)\to N(0,\sigma_{\rho}^2)$ en la distribución, por lo que podemos probar las hipótesis sobre $\rho$ .

Supongamos ahora que $Z_t$ no es estacionario. Entonces $corr(X_t,Y_t)$ puede depender de $t$ . Así que cuando observamos una muestra de tamaño $T$ potencialmente necesitamos estimar $T$ diferentes correlaciones $\rho_t$ . Esto es, por supuesto, inviable, por lo que en el mejor de los casos sólo podemos estimar algún funcional de $\rho_t$ como la media o la varianza. Pero el resultado puede no tener una interpretación sensata.

Examinemos ahora lo que ocurre con la correlación del proceso no estacionario probablemente más estudiado, el paseo aleatorio. Llamamos al proceso $Z_t=(X_t,Y_t)$ un paseo aleatorio si $Z_t=\sum_{s=1}^t(U_t,V_t)$ , donde $C_t=(U_t,V_t)$ es un proceso estacionario. Para simplificar, supongamos que $EC_t=0$ . Entonces

\begin{align} corr(X_tY_t)=\frac{EX_tY_t}{\sqrt{DX_tDY_t}}=\frac{E\sum_{s=1}^tU_t\sum_{s=1}^tV_t}{\sqrt{D\sum_{s=1}^tU_tD\sum_{s=1}^tV_t}} \end{align}

Para simplificar aún más las cosas, supongamos que $C_t=(U_t,V_t)$ es un ruido blanco. Esto significa que todas las correlaciones $E(C_tC_{t+h})$ son cero para $h>0$ . Tenga en cuenta que esto no restringe $corr(U_t,V_t)$ a cero.

Entonces \begin{align} corr(X_t,Y_t)=\frac{tEU_tV_t}{\sqrt{t^2DU_tDV_t}}=corr(U_0,V_0). \end{align}

Hasta aquí todo bien, aunque el proceso no es estacionario, la correlación tiene sentido, aunque tuvimos que hacer las mismas suposiciones restrictivas.

Ahora para ver lo que ocurre con la correlación muestral tendremos que utilizar el siguiente hecho sobre los paseos aleatorios, llamado teorema del límite central funcional:

\begin{align} \frac{1}{\sqrt{T}}Z_{[Ts]}=\frac{1}{\sqrt{T}}\sum_{t=1}^{[Ts]}C_t\to (cov(C_0))^{-1/2}W_s, \end{align} en la distribución, donde $s\in[0,1]$ y $W_s=(W_{1s},W_{2s})$ es bivariable Movimiento browniano (proceso Wiener bidimensional). Por comodidad introducimos la definición $M_s=(M_{1s},M_{2s})=(cov(C_0))^{-1/2}W_s$ .

De nuevo, para simplificar, definamos la correlación de la muestra como

\begin{align} \hat{\rho}=\frac{\frac{1}{T}\sum_{t=1}^TX_{t}Y_t}{\sqrt{\frac{1}{T}\sum_{t=1}^TX_t^2\frac{1}{T}\sum_{t=1}^TY_t^2}} \end{align}

Empecemos por las desviaciones. Tenemos

\begin{align} E\frac{1}{T}\sum_{t=1}^TX_t^2=\frac{1}{T}E\sum_{t=1}^T\left(\sum_{s=1}^tU_t\right)^2=\frac{1}{T}\sum_{t=1}^Tt\sigma_U^2=\sigma_U\frac{T+1}{2}. \end{align}

Esto va hasta el infinito como $T$ aumenta, por lo que nos encontramos con el primer problema, la varianza de la muestra no converge. Por otra parte teorema de la cartografía continua en conjunción con el teorema del límite central funcional nos da

\begin{align} \frac{1}{T^2}\sum_{t=1}^TX_t^2=\sum_{t=1}^T\frac{1}{T}\left(\frac{1}{\sqrt{T}}\sum_{s=1}^tU_t\right)^2\to \int_0^1M_{1s}^2ds \end{align} donde la convergencia es la convergencia en la distribución, ya que $T\to \infty$ .

Del mismo modo, obtenemos

\begin{align} \frac{1}{T^2}\sum_{t=1}^TY_t^2\to \int_0^1M_{2s}^2ds \end{align} y \begin{align} \frac{1}{T^2}\sum_{t=1}^TX_tY_t\to \int_0^1M_{1s}M_{2s}ds \end{align}

Así que finalmente para la correlación muestral de nuestro paseo aleatorio obtenemos

\begin{align} \hat{\rho}\to \frac{\int_0^1M_{1s}M_{2s}ds}{\sqrt{\int_0^1M_{1s}^2ds\int_0^1M_{2s}^2ds}} \end{align} en la distribución como $T\to \infty$ .

Así, aunque la correlación está bien definida, la correlación muestral no converge hacia ella, como en el caso del proceso estacionario. En cambio, converge a una determinada variable aleatoria.

15voto

jldugger Puntos 7490

...¿el cálculo de la correlación cuyos datos son no estacionarios es siquiera un cálculo estadístico válido?

Dejemos que $W$ sea un paseo aleatorio discreto. Elige un número positivo $h$ . Definir los procesos $P$ y $V$ por $P(0) = 1$ , $P(t+1) = -P(t)$ si $V(t) > h$ y por otra parte $P(t+1) = P(t)$ y $V(t) = P(t)W(t)$ . En otras palabras, $V$ comienza de forma idéntica a $W$ pero cada vez $V$ se eleva por encima de $h$ cambia de signo (emulando, por otra parte, a $W$ en todos los aspectos).

enter image description here

(En esta figura (para $h=5$ ) $W$ es azul y $V$ es de color rojo. Hay cuatro interruptores en señal).

En efecto, en períodos cortos de tiempo $V$ tiende a estar perfectamente correlacionada con $W$ o perfectamente anticorrelacionada con ella; sin embargo, utilizar una función de correlación para describir la relación entre $V$ y $W$ no sería útil (una palabra que quizás capta mejor el problema que "poco fiable" o "sin sentido").

Código de Mathematica para producir la figura:

With[{h=5},
pv[{p_, v_}, w_] := With[{q=If[v > h, -p, p]}, {q, q w}];
w = Accumulate[RandomInteger[{-1,1}, 25 h^2]];
{p,v} = FoldList[pv, {1,0}, w] // Transpose;
ListPlot[{w,v}, Joined->True]]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X