22 votos

¿Qué muestra el gráfico de autocorrelación (pandas)?

Soy principiante y estoy tratando de entender lo que muestra un gráfico de autocorrelación.

He leído varias explicaciones de diferentes fuentes como este o la página página de Wikipedia relacionada entre otros que no cito aquí.

Tengo este código muy simple, donde tengo fechas en mi índice para un año y los valores son simplemente incrementando de 0 a 365 para cada índice.. ( 1984-01-01:0, 1984-01-02:1 ... 1984-12-31:365 )

import numpy as np
import pandas as pd
from pandas.plotting import autocorrelation_plot
import matplotlib.pyplot as plt

dr = pd.date_range(start='1984-01-01', end='1984-12-31')

df = pd.DataFrame(np.arange(len(dr)), index=dr, columns=["Values"])
autocorrelation_plot(df)
plt.show()

donde se imprimirá el gráfico

enter image description here

Puedo entender y ver por qué el gráfico parte de 1.00 desde entonces:

Autocorrelación con retardo cero siempre la autocorrelación entre cada término y sí mismo. Valor y valor con siempre serán iguales.

Esto está muy bien, pero ¿por qué este gráfico en lag 50 tiene un valor en torno a 0,65, por ejemplo? ¿Y por qué cae por debajo de 0? Si no hubiera mostrado el código que tengo, ¿sería posible deducir que este gráfico de autocorrelación muestra una serie temporal de valores crecientes? Si es así, ¿podría intentar explicarle a un principiante cómo deducirlo?

19voto

I-Ii Puntos 91

Observando el estimador de la función de autocovarianza en el lag $ h $ puede ser útil (nótese que la función de autocorrelación es simplemente una versión reducida de la función de autocovarianza).

$$ \hat{\gamma}(h) = \frac{1}{n} \sum_{t=1}^{n-\mid h \mid} (x_{t+h} - \bar{x})(x_t - \bar{x}) $$

La idea es que, para cada retraso $ h $ recorremos la serie y comprobamos si el punto de datos $ h $ pasos de tiempo de distancia covaría positiva o negativamente (es decir, cuando $ t $ supera la media de la serie, hace $ t+h $ también ir por encima o por debajo?).

Su serie es una serie monotónicamente creciente, y tiene media $ 183 $ . Veamos qué ocurre cuando $ h = 130 $ .

En primer lugar, obsérvese que sólo podemos calcular la función de autocovarianza hasta el punto temporal 234, ya que cuando $ t = 234 $ , $ t+h=365 $ .

Además, tenga en cuenta que a partir de $ t= 1 $ hasta $ t = 53 $ tenemos que $ t + h $ también está por debajo de la media (ya que 53 + 130 = 183 que es la media de la serie).

Y luego, de $ t=54 $ a $ t=182 $ la correlación estimada será será negativa, ya que covarían negativamente.

Por último, de $ t = 183 $ a $ t = 234 $ la correlación estimada será volverá a ser positiva, ya que $ t $ y $ t+h $ estarán ambos por encima de la media.

¿Comprende cómo esto daría lugar a que la correlación se promediara debido a las contribuciones aproximadamente iguales a la función de autocovarianza de de los puntos de covarianza positiva y de los puntos de covarianza negativa?

Puede que observe que hay más puntos que covarían negativamente que positivos. Sin embargo, intuitivamente, los puntos covariantes positivos son de mayor magnitud (ya que están más alejados de la media), mientras que los covariantes negativos son de mayor magnitud (ya que están más alejados de la media). mientras que los puntos con covarianza negativa contribuyen con una magnitud menor a la función de autocovarianza, ya que aparecen más cerca de la media. El resultado es una función de autocovarianza de aproximadamente cero.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X