48 votos

Escollos en el análisis de series temporales

Me estoy iniciando en el autoaprendizaje del análisis de series temporales. Me he dado cuenta de que hay una serie de escollos potenciales que no son aplicables a la estadística general. Así que, basándome en ¿Cuáles son los pecados estadísticos más comunes? Me gustaría preguntar:

¿Cuáles son las trampas o pecados estadísticos más comunes en el análisis de series temporales?

Esto pretende ser una wiki comunitaria, un concepto por respuesta, y por favor, no se repitan las trampas estadísticas más generales que están (o deberían estar) listadas en ¿Cuáles son los pecados estadísticos más comunes?

20voto

Loren Pechtel Puntos 2212

Extrapolar una regresión lineal en una serie temporal, donde el tiempo es una de las variables independientes de la regresión. Una regresión lineal puede aproximar una serie temporal en una escala de tiempo corta, y puede ser útil en un análisis, pero extrapolar una línea recta es una tontería. (El tiempo es infinito y siempre creciente).

EDIT: En respuesta a la pregunta de naught101 sobre la "tontería", puede que mi respuesta sea errónea, pero me parece que la mayoría de los fenómenos del mundo real no aumentan o disminuyen continuamente para siempre. La mayoría de los procesos tienen factores limitantes: las personas dejan de crecer en altura a medida que envejecen, las acciones no siempre suben, las poblaciones no pueden ser negativas, no puedes llenar tu casa con mil millones de cachorros, etc. El tiempo, a diferencia de la mayoría de las variables independientes que se nos ocurren, tiene un soporte infinito, por lo que realmente puedes imaginar tu modelo lineal prediciendo el precio de las acciones de Apple dentro de 10 años, porque dentro de 10 años seguramente existirá. (Mientras que no extrapolarías una regresión altura-peso para predecir el peso de hombres adultos de 20 metros de altura: no existen ni existirán).

Además, las series temporales suelen tener componentes cíclicos o pseudocíclicos, o componentes de paseo aleatorio. Como menciona IrishStat en su respuesta, hay que tener en cuenta la estacionalidad (a veces estacionalidades en múltiples escalas de tiempo), los cambios de nivel (que harán cosas extrañas a las regresiones lineales que no los tengan en cuenta), etc. Una regresión lineal que ignore los ciclos se ajustará a corto plazo, pero será muy engañosa si se extrapola.

Por supuesto, puedes tener problemas siempre que extrapoles, series temporales o no. Pero me parece que con demasiada frecuencia vemos que alguien introduce una serie temporal (delitos, precios de las acciones, etc.) en Excel, le pone una PREVISIÓN o una LÍNEA y predice el futuro a través de una línea recta, como si los precios de las acciones fueran a subir continuamente (o a bajar continuamente, incluso a ser negativos).

0 votos

¿Puede ampliar la información sobre por qué ¿es una tontería?

1 votos

+1 por los increíbles ejemplos. Estoy calculando exactamente cuántos cachorros puedo meter en mi casa ahora mismo :D

3 votos

Esta es una gran ilustración de su punto: xkcd.com/605

15voto

Loren Pechtel Puntos 2212

Atención a la correlación entre dos series temporales no estacionarias. (No es inesperado que tengan un alto coeficiente de correlación: busque en "correlación no estacionaria" y "cointegración").

Por ejemplo, en google correlate, los perros y los piercings en las orejas tienen un coeficiente de correlación de 0,84.

Para un análisis más antiguo, véase La exploración del problema por parte de Yule en 1926

0 votos

Por supuesto, no siempre. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309

0 votos

@Wayne Muchas gracias por el artículo de Yule. Llevo citándolo desde 1970 y nunca lo había leído. Es muy conocido en algunos círculos, aparentemente pequeños.

0 votos

El enlace al artículo de Yule está roto.

7voto

OldJim Puntos 3266

En el nivel superior, Kolmogorov identificó independencia como un supuesto clave en estadística - sin el supuesto de i.i.d, muchos resultados importantes en estadística no son ciertos, ya sea aplicado a series temporales o a tareas de análisis más generales.

Las muestras sucesivas o cercanas en la mayoría de las señales de tiempo discreto del mundo real no son independientes, por lo que hay que tener cuidado de descomponer un proceso en un modelo determinista y un componente de ruido estocástico. Aun así, la suposición de incremento independiente en el cálculo estocástico clásico es problemática: recordemos el Nobel de Economía de 1997 y la implosión de LTCM en 1998, que contaba con los galardonados entre sus directivos (aunque, para ser justos, el gestor del fondo, Merrywhether, probablemente tenga más culpa que los métodos cuánticos).

0 votos

"análisis de series temporales" como campo de estudio. Básicamente me refiero a cualquier cosa que pueda hacer tropezar a alguien nuevo en el estudio de las series temporales (de cualquier tipo, y cualquier tipo de análisis). No busco respuestas exhaustivas. Revisa la pregunta a la que hice referencia en mi pregunta para tener una idea de lo que estoy tratando de hacer aquí.

0 votos

Me refiero a lo que tipo de análisis

0 votos

Lo sé. Creo que no entiendes el sentido de la pregunta. Siéntase libre de comentar sobre los tropiezos comunes en cualquier tipo análisis, de cualquier tipo de un problema de series temporales con el que tengas experiencia. Limítate a los problemas específicos de las series temporales.

2voto

Loren Pechtel Puntos 2212

Estar demasiado seguro de los resultados de su modelo porque utiliza una técnica/modelo (como OLS) que no tiene en cuenta la autocorrelación de una serie temporal.

No tengo un gráfico bonito, pero el libro "Introductory Time Series with R" (2009, Cowpertwait, et al) da una explicación intuitiva razonable: Si hay una autocorrelación positiva, los valores por encima o por debajo de la media tenderán a persistir y a agruparse en el tiempo. Esto conduce a una estimación menos eficiente de la media, lo que significa que se necesitan más datos para estimar la media con la misma precisión que si la autocorrelación fuera nula. Efectivamente, tienes menos datos de los que crees.

El proceso OLS (y por tanto usted) asume que no hay autocorrelación, por lo que también está asumiendo que la estimación de la media es más precisa (para la cantidad de datos que tiene) de lo que realmente es. Por lo tanto, acabas confiando en tus resultados más de lo que deberías.

(Esto puede funcionar a la inversa para la autocorrelación negativa: su estimación de la media es en realidad más eficiente de lo que sería en caso contrario. No tengo nada que demuestre esto, pero sugeriría que la correlación positiva es más común en la mayoría de las series temporales del mundo real que la correlación negativa).

0 votos

Un ejemplo aquí sería genial, no entiendo del todo la respuesta tal y como está

0 votos

Gracias por la edición @Wayne, pero me refería a un ejemplo del mundo real, preferiblemente con alguna visualización. Obviamente, otros pueden añadir eso también - es un wiki de la comunidad.

1 votos

@naught101: Ah. Dos de las tres sugerencias que he hecho aquí se basan en lo que he aprendido, pero no necesariamente lo suficientemente bien como para hacer un buen ejemplo. Intentaré buscar uno en la web.

2voto

Owen Fraser-Green Puntos 642

El impacto de los cambios de nivel, los pulsos estacionales y las tendencias temporales locales... además de los pulsos puntuales. Los cambios en los parámetros a lo largo del tiempo son importantes para investigar/modelar. Hay que investigar los posibles cambios en la varianza de los errores a lo largo del tiempo. Cómo determinar el impacto de Y en los valores contemporáneos y retardados de X. Cómo identificar si los valores futuros de X pueden afectar a los valores actuales de Y. Cómo averiguar si determinados días del mes tienen un impacto. ¿Cómo modelar problemas de frecuencia mixta en los que los datos horarios se ven afectados por los valores diarios?

naught me pidió que proporcionara información/ejemplos más específicos sobre los cambios de nivel y los pulsos. Para ello, incluyo ahora algo más de discusión. Una serie que presenta un ACF que sugiere no estacionariedad está entregando, en efecto, un "síntoma". Un remedio sugerido es "diferenciar" los datos. Un remedio que se ha pasado por alto es "desmedir" los datos. Si una serie tiene un cambio de nivel "importante" en la media (es decir, el intercepto), el acf de toda la serie puede interpretarse fácilmente de forma errónea para sugerir la diferenciación. Si hubiera acentuado (ampliado) la diferencia entre las dos medias, el acf de toda la serie sugeriría (¡incorrectamente!) la necesidad de diferenciar. Los pulsos/desplazamientos de nivel/pulsos estacionales/tendencias temporales locales no tratados inflan la varianza de los errores ofuscando la importancia de la estructura del modelo y son la causa de estimaciones de parámetros defectuosas y previsiones pobres. Veamos un ejemplo. El enter image description here es una lista de los 27 valores mensuales. Este es el gráfico enter image description here . Hay cuatro pulsos y 1 cambio de nivel ¡Y SIN TENDENCIA! enter image description here y enter image description here . Los residuos de este modelo sugieren un proceso de ruido blanco enter image description here . Algunos (¡la mayoría!) paquetes de previsión comerciales e incluso gratuitos ofrecen la siguiente tontería como resultado de asumir un modelo de tendencia con factores estacionales aditivos enter image description here . Para concluir y parafraseando a Mark Twain "Hay tonterías y tonterías, pero la tontería más insensata de todas es la estadística", frente a una más razonable enter image description here . Espero que esto ayude.

1 votos

¿De verdad? Todos estos son escollos y pecados ? (¡Vuelva a leer la parte subrayada de la pregunta!) ¿Quizás quiera decir lo contrario de lo que ha escrito?

0 votos

La intención de mis comentarios era señalar los peligros de no considerar algunas de estas posibles estructuras del mundo real. Hay que evitar las suposiciones que no están razonablemente validadas, pues de lo contrario se podrían obtener resultados muy cuestionables.

3 votos

He deducido que esa era la intención, pero en su forma actual su respuesta es fácil de malinterpretar. Por ejemplo, ¿es un pecado evaluar el "impacto" de los "pulsos únicos" o es un pecado no hacerlo? Esto es lo suficientemente vago como para que se pueda argumentar a favor de cualquiera de las dos interpretaciones. (Sí, es un pecado, porque los impulsos puntuales podrían ser simplemente valores atípicos a los que no se quiere conceder una influencia indebida y tenerlos en cuenta a todos podría sobreparametrizar el modelo; no, es necesario incluirlos porque sus efectos pueden perdurar durante mucho tiempo e ignorarlos podría sesgar las estimaciones de otros parámetros).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X