9 votos

¿Cómo comparar 2 series temporales no estacionarias para determinar una correlación?

Tengo dos series de datos que trazan la edad media de la muerte en el tiempo. Ambas series muestran un aumento de la edad de fallecimiento a lo largo del tiempo, pero una es mucho más baja que la otra. Quiero determinar si el aumento de la edad al morir de la muestra inferior es significativamente diferente al de la muestra superior.

Aquí están los datos ordenados por año (de 1972 a 2009, ambos inclusive) y redondeados con tres decimales:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Ambas series son no estacionarias, ¿cómo puedo comparar las dos, por favor? Estoy utilizando STATA. Cualquier consejo será recibido con gratitud.

Data plots

18voto

Owen Fraser-Green Puntos 642

Esta respuesta contiene algunos gráficos residuals from a useful model!   1

actuals cleansed of Interventionsacf of model residualsenter image description herefit and forecast of CohortBRESIDUALS FROM MODELactual fit and forecast

17voto

jldugger Puntos 7490

Esta es una situación simple; mantengámosla así. La clave es centrarse en lo que importa:

  • Obtención de una descripción útil de los datos.

  • Evaluar las desviaciones individuales de esa descripción.

  • Evaluar el posible papel e influencia del azar en la interpretación.

  • Mantener la integridad intelectual y la transparencia.

Todavía hay muchas opciones y muchas formas de análisis serán válidas y eficaces. Vamos a ilustrar aquí un enfoque que puede recomendarse por su adhesión a estos principios clave.

Para mantener la integridad, Vamos a dividir los datos en mitades: las observaciones de 1972 a 1990 y las de 1991 a 2009 (19 años en cada una). Vamos a ajustar los modelos a la primera mitad y luego veremos qué tal funcionan los ajustes para proyectar la segunda mitad. Esto tiene la ventaja añadida de detectar los cambios significativos que puedan haberse producido durante la segunda mitad.

Para obtener una descripción útil, necesitamos (a) encontrar una manera de medir los cambios y (b) ajustar el modelo más simple posible apropiado para esos cambios, evaluarlo, y ajustar iterativamente otros más complejos para acomodar las desviaciones de los modelos simples.

(a) Tienes muchas opciones: puedes mirar los datos brutos; puedes mirar sus diferencias anuales; puedes hacer lo mismo con los logaritmos (para evaluar los cambios relativos); puedes evaluar los años de vida perdidos o la esperanza de vida relativa (EVR); o muchas otras cosas. Después de pensarlo un poco, decidí considerar la EVR, definida como la relación entre la esperanza de vida de la cohorte B y la de la cohorte A (de referencia). Afortunadamente, como muestran los gráficos, la esperanza de vida de la cohorte A aumenta regularmente de forma estable a lo largo del tiempo, por lo que la mayor parte de la variación de aspecto aleatorio de la EVR se deberá a los cambios en la cohorte B.

(b) El modelo más simple posible para empezar es una tendencia lineal. Veamos qué tal funciona.

Figure 1

Los puntos azules oscuros de este gráfico son los datos retenidos para el ajuste; los puntos dorados claros son los datos posteriores, no utilizados para el ajuste. La línea negra es el ajuste, con una pendiente de 0,009/año. Las líneas discontinuas son los intervalos de predicción de los distintos valores futuros.

En general, el ajuste parece bueno: El examen de los residuos (véase más adelante) no muestra cambios importantes en su tamaño a lo largo del tiempo (durante el periodo de datos 1972-1990). (Hay algunos indicios de que tendían a ser mayores al principio, cuando la esperanza de vida era baja. Podríamos manejar esta complicación sacrificando algo de simplicidad, pero es poco probable que los beneficios para estimar la tendencia sean grandes). Sólo hay un pequeño indicio de correlación serial (exhibido por algunas series de residuos positivos y negativas), pero claramente esto no es importante. No hay valores atípicos, que estarían indicados por puntos más allá de las bandas de predicción.

La única sorpresa es que en 2001 los valores cayeron repentinamente a la banda inferior de predicción y se quedaron ahí: algo bastante repentino y grande ocurrió y persistió.

Aquí están los residuos, que son los desviaciones de la descripción mencionada anteriormente.

Figure 2

Como queremos comparar los residuos con 0, se dibujan líneas verticales hasta el nivel cero como ayuda visual. De nuevo, los puntos azules muestran los datos utilizados para el ajuste. Los de color dorado claro son los residuos de los datos que caen cerca del límite inferior de predicción, después del año 2000.

A partir de esta cifra podemos estimar que el efecto del cambio de 2000-2001 fue de aproximadamente -0,07 . Esto refleja una caída repentina de 0,07 (7%) de una vida completa dentro de la cohorte B. Después de esa caída, el patrón horizontal de los residuos muestra que la tendencia anterior continuó, pero en el nuevo nivel más bajo. Esta parte del análisis debe considerarse exploratorio : no estaba previsto específicamente, sino que surgió debido a una sorprendente comparación entre los datos retenidos (1991-2009) y el ajuste al resto de los datos.

Otra cosa: incluso utilizando sólo los 19 primeros años de datos, el error estándar de la pendiente es pequeño: es sólo 0,0009, apenas una décima parte del valor estimado de 0,009. El correspondiente estadístico t de 10, con 17 grados de libertad, es extremadamente significativo (el valor p es inferior a $10^{-7}$ ); es decir, podemos estar seguros de que la tendencia no se debe al azar. Esta es una parte de nuestra evaluación del papel del azar en el análisis. Las otras partes son los exámenes de los residuos.

No parece haber ninguna razón para ajustar un modelo más complicado a estos datos, al menos no para estimar si hay una verdadera tendencia en la RLE a lo largo del tiempo: la hay. Podríamos ir más allá y dividir los datos en valores anteriores a 2001 y posteriores a 2000 para afinar nuestra estimaciones de las tendencias, pero no sería del todo honesto realizar pruebas de hipótesis. Los valores p serían artificialmente bajos, porque las pruebas de división no se planificaron de antemano. Pero como ejercicio exploratorio, esa estimación está bien. Aprenda todo lo que pueda de sus datos. Sólo hay que tener cuidado de no engañarse a sí mismo con el sobreajuste (que es casi seguro que ocurrirá si se utiliza más de media docena de parámetros o se emplean técnicas de ajuste automatizadas), o con el fisgoneo de los datos: manténgase alerta ante la diferencia entre la confirmación formal y la exploración informal (pero valiosa) de los datos.

Resumamos:

  • Seleccionando una medida adecuada de la esperanza de vida (la RLE), reteniendo la mitad de los datos, ajustando un modelo sencillo y probando ese modelo con los datos restantes, hemos establecido con gran confianza que La tendencia ha sido consistente, se ha acercado a la linealidad durante un largo periodo de tiempo y ha habido una caída repentina y persistente de la RLE en 2001.

  • Nuestro modelo es sorprendentemente parsimonioso El modelo de la curva de la derecha: sólo necesita dos números (una pendiente y un intercepto) para describir los primeros datos con exactitud. Necesita un tercero (la fecha de la ruptura, 2001) para describir una desviación evidente pero inesperada de esta descripción. No hay valores atípicos en relación con esta descripción de tres parámetros. El modelo no va a mejorar sustancialmente caracterizando la correlación serial (el objetivo de las técnicas de series temporales en general), intentando describir las pequeñas desviaciones individuales (residuos) exhibidas, o introduciendo ajustes más complicados (como añadir un componente temporal cuadrático o modelar los cambios en el tamaño de los residuos a lo largo del tiempo).

  • La tendencia ha sido de 0,009 RLE por año . Esto significa que con cada año que pasa, la esperanza de vida dentro de la cohorte B ha tenido un 0,009 (casi el 1%) de una vida normal esperada completa. En el transcurso del estudio (37 años), esto equivaldría a 37*0,009 = 0,34, es decir, un tercio de la mejora de toda una vida. El retroceso de 2001 redujo esa ganancia a cerca de 0,28 de una vida completa entre 1972 y 2009 (aunque durante ese periodo la esperanza de vida global aumentó un 10%).

  • Aunque este modelo podría mejorarse, probablemente necesitaría más parámetros y es poco probable que la mejora sea grande (como atestigua el comportamiento casi aleatorio de los residuos). En conjunto, pues, deberíamos estar contentos para llegar a ese compacto y útil, simple descripción de los datos para tan poco trabajo de análisis.

17voto

Owen Fraser-Green Puntos 642

En algunos casos, uno conoce un modelo teórico que puede utilizar para probar su hipótesis. En mi mundo, este "conocimiento" suele faltar y hay que recurrir a técnicas estadísticas que pueden clasificarse como análisis exploratorio de datos, lo que resume lo que sigue. Uno de los primeros análisis al respecto se encuentra en Yule, G.U, 1926, "Why do we sometimes get nonsense correlations between time series? A study in sampling and the nature of time series", Journal of the Royal Statistical Society 89, 1-64 . O cuando una o varias de las series se han visto afectadas por una actividad excepcional ( véase whuber "el repentino retroceso de la cohorte B en 2001 ), lo que puede ocultar eficazmente las relaciones significativas. En la actualidad, la detección de una relación entre series temporales se extiende al examen no sólo de las relaciones contemporáneas, sino también de las posibles relaciones retardadas. Además, si alguna de las series se ha visto afectada por anomalías (acontecimientos puntuales), debemos reforzar nuestro análisis ajustando estas distorsiones puntuales. La literatura de series temporales señala cómo identificar la relación mediante el preblanqueo para identificar más claramente la estructura. El preblanqueo ajusta la estructura intracorrelativa antes de identificar la estructura intercorrelativa. Obsérvese que la palabra clave es identificar la estructura. Este enfoque conduce fácilmente al siguiente "modelo útil":

Y(T) = -194,45
+[X1(T)][(+ 1,2396+ 1,6523B** 1)] COHORTE

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

que sugiere una relación contemporánea de 1,2936 y un efecto retardado de 1,6523. Obsérvese que hay una serie de años en los que se identificó una actividad inusual, a saber: 1975, 2001, 1983, 1999, 1976, 1985, 1984, 1991 y 1989. Los ajustes de los años nos permiten evaluar más claramente la relación entre estas dos series.

Para hacer una previsión

MODELO EXPRESADO EN FORMA DE XARMAX
Y[t] = a[1]Y[t-1] + ... + a[p]Y[t-p]
+ w[0]X[t-0] + ... + w[r]X[t-r]
+ b[1]a[t-1] + ... + b[q]a[t-q]
+ constante

LA CONSTANTE DEL LADO DERECHO ES: -194,45

COHORTE 0 1,239589 X( 39 ) * 78,228616 = 96,971340

COHORTE 1 1,652332 X( 38 ) * 77,983000 = 128,853835

I~L00030 0 -2.475963 X( 39 ) * 1.000000 = -2.475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Cuatro coeficientes es todo lo que se necesita para hacer una previsión y, por supuesto, una predicción para la CohorteA en el periodo de tiempo 39 (78,228616) obtenida del modelo ARIMA para la Cohorta.

2voto

MHG Puntos 81

Creo que la respuesta de whuber es directa y sencilla de entender para una persona que no es de series temporales como yo. Yo me baso en la suya. Mi respuesta es en R, no en Stata, ya que no conozco stata tan bien.

Me pregunto si la pregunta nos pide en realidad que analicemos si el aumento anual absoluto es el mismo en las dos cohortes (y no el relativo). Creo que esto es importante y lo ilustra de la siguiente manera. Consideremos el siguiente ejemplo de juguete:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

enter image description here

Aquí tenemos 2 cohortes, cada una de las cuales tiene un aumento constante de 1 año por año en la mediana de supervivencia. Así que cada año ambas cohortes en este ejemplo aumentan en la misma cantidad absoluta, pero la EBR da lo siguiente:

rle <-  a / b
plot(rle)

enter image description here

Que obviamente tiene una tendencia ascendente, y el valor p para probar la hipótesis de que el gradiente de la línea 0 es 2,2e-16. La línea recta ajustada (ignoremos que esta línea parece curva) tiene un gradiente de 0,008. Por tanto, aunque ambas cohortes tienen el mismo incremento absoluto en un año, la RLE tiene una pendiente ascendente.

Por lo tanto, si utiliza la RLE cuando quiere buscar incrementos absolutos, rechazará de forma inadecuada la hipótesis nula.

Utilizando los datos suministrados, calculando la diferencia absoluta entre las cohortes obtenemos: enter image description here

Lo que implica que la diferencia absoluta entre las medianas de supervivencia está disminuyendo gradualmente (es decir, la cohorte con mala supervivencia se está acercando gradualmente a la cohorte con mejor supervivencia).

1voto

DoubleDunk Puntos 128

Estas dos series temporales parecen tener una tendencia determinista. Se trata de una relación que, obviamente, hay que eliminar antes de continuar con el análisis. Personalmente, yo procedería de la siguiente manera:

1) Haría una regresión para cada serie temporal contra una constante y un tiempo, y calcularía el residuo para cada serie temporal.

2) Tomando las dos series de residuos, calculadas en el paso anterior, ejecutaría una regresión lineal simple (sin un término constante) y miraría el estadístico t, el valor p, y decidiría si hay o no más dependencia entre las dos series.

Este análisis asume el mismo conjunto de suposiciones que se hacen en una regresión lineal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X