94 votos

Cómo utilizar correctamente la correlación de Pearson con las series temporales

Tengo dos series temporales (ambas suaves) que me gustaría correlacionar para ver su correlación.

Pretendo utilizar el coeficiente de correlación de Pearson. ¿Es esto apropiado?

Mi segunda pregunta es que puedo elegir el muestreo de las 2 series temporales como quiera, es decir, puedo elegir cuántos puntos de datos voy a utilizar. ¿Afectará esto al coeficiente de correlación que se obtiene? ¿Tengo que tenerlo en cuenta?

A título ilustrativo

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

2 votos

¿Cuál es la naturaleza de las series temporales? ¿Son un paseo aleatorio? ¿Son estacionarias? ¿Series económicas?

132voto

AdamSane Puntos 1825

Correlación de Pearson es se utiliza para observar la correlación entre series... pero al tratarse de series temporales la correlación se observa a través de diferentes rezagos -- el función de correlación cruzada .

La correlación cruzada se ve afectada por la dependencia dentro de la serie, por lo que en muchos casos la dependencia dentro de la serie debe eliminarse primero. Así que para utilizar esta correlación, en lugar de alisado las series, en realidad es más común (porque es significativo) observar la dependencia entre los residuos, la parte aproximada que queda después de encontrar un modelo adecuado para las variables.

Probablemente quiera empezar con algunos recursos básicos sobre modelos de series temporales antes de adentrarse en tratar de averiguar si una correlación de Pearson entre series (presumiblemente) no estacionarias y suavizadas es interpretable.

En particular, probablemente querrá investigar el fenómeno aquí . [En las series temporales esto se llama a veces correlación espuria Aunque el artículo de la Wikipedia sobre la correlación espuria adopta un punto de vista estrecho sobre el uso del término de una manera que parece excluir este uso del término. Probablemente encontrará más información sobre los temas tratados aquí buscando regresión espuria en su lugar].

Editar - el panorama de Wikipedia sigue cambiando; el párrafo anterior probablemente debería ser revisado para reflejar lo que hay ahora].

por ejemplo, ver algunas discusiones

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (la cita inicial de Yule, en un trabajo presentado en 1925 pero publicado al año siguiente, resume bastante bien el problema)

  2. Christos Agiakloglou y Apostolos Tsimpanos, Correlaciones espurias para procesos estacionarios AR(1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (esto demuestra que incluso puede darse el problema entre series estacionarias; de ahí la tendencia a preblanquear)

  3. La referencia clásica de Yule, (1926) [1] mencionada anteriormente.

También puede encontrar el debate aquí útil, así como la discusión aquí

--

Utilizar la correlación de Pearson de forma significativa entre series temporales es difícil y a veces sorprendentemente sutil.


He buscado correlación espuria, pero me da igual que mi serie A sea la causa de mi serie B o viceversa. Sólo quiero saber si se puede aprender algo sobre la serie A mirando lo que hace la serie B (o viceversa). En otras palabras, si tienen una correlación.

Tenga en cuenta mi comentario anterior sobre el uso restringido del término correlación espuria en el artículo de la Wikipedia.

La cuestión de la correlación espuria es que las series pueden aparece correlacionados, pero la correlación en sí misma no es significativa. Considere la posibilidad de que dos personas lancen dos monedas distintas contando el número de caras hasta el momento menos el número de colas hasta el momento como el valor de su serie.

(Así que si la persona 1 lanza $\text{HTHH...}$ tienen 3-1 = 2 para el valor en el cuarto paso de tiempo, y su serie va $1, 0, 1, 2,...$ .)

Obviamente, no hay ninguna conexión entre las dos series. Claramente ¡ninguno de los dos puede decir la primera cosa sobre el otro!

Pero mira el tipo de correlaciones que obtienes entre pares de monedas:

enter image description here

Si no te dijera cuáles son, y tomaras cualquier par de esas series por sí solas, serían correlaciones impresionantes ¿no?

Pero todos son sin sentido . Totalmente espurio. Ninguno de los tres pares está realmente más relacionado positiva o negativamente entre sí que cualquiera de los otros - es sólo ruido acumulado . El espurio no se trata sólo de la predicción, todo el noción de considerar la asociación entre series sin tener en cuenta la dependencia dentro de las mismas es errónea.

Todo que tienes aquí es dentro de la serie dependencia. No hay ninguna relación real de series cruzadas.

Una vez que se trata adecuadamente la cuestión que hace que estas series sean autodependientes - todas están integradas ( Paseos aleatorios Bernoulli ), por lo que hay que diferenciarlas: la asociación "aparente" desaparece (la mayor correlación absoluta de las tres series cruzadas es de 0,048).

Lo que te dice la verdad es que la aparente asociación es una mera ilusión causada por la dependencia dentro de la serie.

Su pregunta se refería a "cómo utilizar correctamente la correlación de Pearson con las series temporales", así que por favor entienda: si hay dependencia dentro de la serie y usted no tratarla primero, no la usarás correctamente.

Además, alisado no reduce el problema de la dependencia serial, sino todo lo contrario: ¡lo empeora! Aquí están las correlaciones después del suavizado (suavizado de loess por defecto - de la serie frente al índice - realizado en R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

Todos se han alejado de 0. Son todo sigue sin ser más que ruido sin sentido aunque ahora es ruido suavizado y acumulado. (Al suavizar, reducimos la variabilidad de las series que ponemos en el cálculo de la correlación, así que puede ser por eso que la correlación sube).

[1]: Yule, G.U. (1926) "¿Por qué a veces obtenemos correlaciones sin sentido entre las series temporales?" J.Roy.Stat.Soc. , 89 , 1 , pp. 1-63

1 votos

Gracias por la gran respuesta. He buscado correlación espuria, pero no me importa si mi serie A es la causa de mi serie B o viceversa. Sólo quiero saber si se puede aprender algo sobre la serie A mirando lo que hace la serie B (o viceversa). En otras palabras, si tienen una correlación.

0 votos

Por favor, vea mi respuesta actualizada.

2 votos

Permítanme añadir que las relaciones entre las series temporales multivariantes pueden estudiarse utilizando cointegración . En este marco, los paseos aleatorios anteriores son independiente ruido integrado (o acumulativo), pero el marco permite también la integración dependiente, o cointegración. La cointegración es más apropiada que la correlación para estudiar las dependencias entre series temporales no estacionarias, por ejemplo, las series temporales que contienen componentes de paseo aleatorio.

18voto

Jonathan Fingland Puntos 26224

Para completar la respuesta de Glen_b y su ejemplo sobre los paseos aleatorios, si realmente quieres utilizar la correlación de Pearson en este tipo de series temporales $(S_t)_{1 \leq t \leq T}$ primero hay que diferenciarlos, y luego calcular el coeficiente de correlación en los incrementos ( $X_t = S_t - S_{t-1}$ ) que son (en el caso de los paseos aleatorios) independientes e idénticamente distribuidos. Le sugiero que utilice la correlación de Spearman o la de Kendall, ya que son más robustas que el coeficiente de Pearson. El de Pearson mide la dependencia lineal mientras que el de Spearman y el de Kendall son invariables por transformaciones monótonas de sus variables.

Además, imagine que dos series temporales son fuertemente dependientes, digamos que suben juntas y bajan juntas, pero una sufre a veces fuertes variaciones y la otra tiene siempre variaciones leves, su correlación de Pearson será bastante baja a diferencia de las de Spearman y Kendall (que son mejores estimaciones de la dependencia entre sus series temporales).

Para un tratamiento exhaustivo sobre esto y una mejor comprensión de la dependencia, puede consultar Teoría de la cópula y para una aplicación a las series temporales .

12voto

random_guy Puntos 1198

Los datos de las series temporales suelen depender del tiempo. La correlación de Pearson, sin embargo, es apropiada para datos independientes. Este problema es similar a la llamada regresión espuria. Es probable que el coeficiente sea muy significativo, pero esto se debe únicamente a la tendencia temporal de los datos que afecta a ambas series. Recomiendo modelar los datos y luego intentar ver si la modelización produce resultados similares para ambas series. Sin embargo, si se utiliza el coeficiente de correlación de Pearson, lo más probable es que se obtengan resultados engañosos para la interpretación de la estructura de dependencia.

0 votos

¿puede explicar con más detalle que "la correlación de Pearson es apropiada para datos independientes"? hasta donde yo sé, para variables independientes la correlación de Pearson sería simplemente cero (en el sentido de que no es necesario realizar una correlación de Pearson).

4 votos

Creo que random_guy quería decir dentro de la serie dependencia. Dadas dos series $X = x_1, ..., x_n$ y $Y = y_1, ..., y_n$ La correlación de Pearson supone la independencia entre $x_i, x_j$ (o $y_i, y_j$ ). Sin embargo, esto no suele ser así, porque las series temporales dependen del tiempo y suelen tener una tendencia. Esta tendencia puede inflar artificialmente el coeficiente de correlación, especialmente si la propia tendencia se correlaciona entre $X$ y $Y$ (digamos que ambos suben).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X