21 votos

¿Cuál es la diferencia "mecánica" entre la regresión lineal múltiple con rezagos y las series temporales?

Soy licenciado en empresariales y economía y actualmente estoy estudiando un máster en ingeniería de datos. Mientras estudiaba la regresión lineal (LR) y luego el análisis de series temporales (TS), me surgió una pregunta. ¿Por qué crear un método completamente nuevo, es decir, series temporales (ARIMA), en lugar de utilizar la regresión lineal múltiple y añadirle variables retardadas (con el orden de los retardos determinado mediante ACF y PACF)? Así que el profesor me sugirió que escribiera un pequeño ensayo sobre la cuestión. No iba a venir a buscar ayuda con las manos vacías, así que me puse a investigar sobre el tema.

Ya sabía que cuando se utiliza LR, si se violan los supuestos de Gauss-Markov, la regresión OLS es incorrecta, y que esto ocurre cuando se utilizan datos de series temporales (autocorrelación, etc). (otra pregunta al respecto, un supuesto de G-M es que las variables independientes deben estar distribuidas normalmente o sólo la variable dependiente condicionada a las independientes).

También sé que cuando se utiliza una regresión de rezago distribuido, que es lo que creo que estoy proponiendo aquí, y se utiliza OLS para estimar los parámetros, puede surgir (obviamente) la multicolinealidad entre las variables, por lo que las estimaciones serían erróneas.

En un post similar sobre TS y LR aquí, @IrishStat dijo:

... un modelo de regresión es un caso particular de un modelo de función de transferencia también conocido como modelo de regresión dinámica o modelo XARMAX. Lo más destacado es que la identificación del modelo en las series temporales es decir, las diferencias apropiadas, los rezagos apropiados de las X, la estructura ARIMA apropiada, la identificación apropiada de la estructura determinista no especificada, como los pulsos, los cambios de nivel, las tendencias temporales locales, los pulsos estacionales y la incorporación de cambios en los parámetros o la varianza del error debe ser considerado.

(También leí su artículo en Autobox sobre Box Jenkins vs LR.) Pero esto sigue sin resolver mi pregunta (o al menos no me aclara la diferente mecánica de RL y TS).

Es obvio que incluso con variables retardadas surgen problemas de MCO y no es eficiente ni correcto, pero cuando se utiliza la máxima verosimilitud, ¿persisten estos problemas? He leído que el ARIMA se estima por máxima verosimilitud, así que si el LR con rezagos se estima con ML en lugar de OLS, ¿se obtienen los coeficientes "correctos" (supongamos que incluimos también términos de error rezagados, como un MA de orden q).

En resumen, ¿el problema es OLS? ¿Se resuelve el problema aplicando ML?

15voto

Richard Hardy Puntos 6099

¿Por qué crear un método completamente nuevo, es decir, de series temporales (ARIMA), en lugar de utilizar la regresión lineal múltiple y añadirle variables retardadas (con el orden de los retardos determinado mediante ACF y PACF)?

Un punto inmediato es que una regresión lineal sólo funciona con variables observadas, mientras que ARIMA incorpora variables no observadas en la parte de la media móvil; por tanto, ARIMA es más flexible, o más general, en cierto modo. El modelo AR puede considerarse como un modelo de regresión lineal y sus coeficientes pueden estimarse mediante MCO; $\hat\beta_{OLS}=(X'X)^{-1}X'y$ donde $X$ consiste en rezagos de la variable dependiente que son observado . Mientras tanto, los modelos MA o ARMA no encajan en el marco de OLS, ya que algunas de las variables, concretamente los términos de error retardados, son no observado y, por lo tanto, el estimador OLS es inviable.

una de las hipótesis de G-M es que las variables independientes deben estar distribuidas normalmente? o sólo la variable dependiente condicionada a las independientes?

El supuesto de normalidad se invoca a veces para los errores del modelo, no para las variables independientes. Sin embargo, la normalidad no es necesaria ni para la consistencia y eficiencia del estimador OLS ni para que se cumpla el teorema de Gauss-Markov. Wikipedia artículo sobre el teorema de Gauss-Markov afirma explícitamente que "Los errores no tienen por qué ser normales".

puede surgir (obviamente) la multicolinealidad entre las variables, por lo que las estimaciones serían erróneas.

Un alto grado de multicolinealidad significa una varianza inflada del estimador OLS. Sin embargo, el estimador MCO sigue siendo AZUL mientras la multicolinealidad no sea perfecta. Por lo tanto, su afirmación no parece correcta.

Es obvio que incluso con variables retardadas surgen problemas de MCO y no es eficiente ni correcto, pero cuando se utiliza la máxima verosimilitud, ¿persisten estos problemas?

Un modelo AR puede estimarse utilizando tanto OLS como ML; ambos métodos proporcionan estimadores consistentes. Los modelos MA y ARMA no pueden estimarse mediante OLS, por lo que ML es la principal opción; de nuevo, es consistente. La otra propiedad interesante es la eficiencia, y aquí no estoy completamente seguro (pero claramente la información debería estar disponible en algún lugar, ya que la pregunta es bastante estándar). Intentaría comentar la "corrección", pero no estoy seguro de lo que quieres decir con eso.

7voto

MistakeNot Puntos 16

Esa es una gran pregunta. La verdadera diferencia entre los modelos ARIMA y la regresión lineal múltiple radica en su estructura de errores. Puedes manipular las variables independientes en un modelo de regresión lineal múltiple para que se ajusten a tus datos de series temporales, que es lo que dice @IrishStat. Sin embargo, después de eso, necesitas incorporar los errores ARIMA en tu modelo de regresión múltiple para obtener resultados correctos de coeficientes y pruebas. Un gran libro gratuito sobre esto es: https://www.otexts.org/fpp/9/1 . He enlazado la sección que trata de la combinación de modelos ARIMA y de regresión múltiple.

1voto

Buena pregunta, de hecho he construido ambos en mi trabajo diario como Científico de Datos. Los modelos de series temporales son fáciles de construir (el paquete forecast en R te permite construir uno en menos de 5 segundos), igual o más precisos que los modelos de regresión, etc. En general, siempre hay que construir series temporales y luego regresión. Las series temporales también tienen implicaciones filosóficas: si se puede predecir sin saber nada, ¿qué significa eso?

Mi opinión sobre Darlington. 1) "La regresión es mucho más flexible y potente, y produce mejores modelos. Este punto se desarrolla en numerosos puntos a lo largo de la obra".

No, todo lo contrario. Los modelos de regresión hacen muchas más suposiciones que los modelos de series temporales. Cuantas menos suposiciones, más probable es la capacidad de resistir el terremoto (cambio de régimen). Además, los modelos de series temporales responden más rápidamente a los cambios repentinos.

2) "La regresión es mucho más fácil de dominar que el ARIMA, al menos para quienes ya están familiarizados con el uso de la regresión en otras áreas". Esto es un razonamiento circular.

3) "La regresión utiliza un algoritmo computacional "cerrado" que, en la medida de lo posible, garantiza la obtención de resultados, mientras que el método ARIMA y muchos otros utilizan algoritmos iterativos que a menudo no llegan a la solución. A menudo he visto que el método ARIMA se "cuelga" con datos que no dieron problemas al método de regresión."

La regresión te da una respuesta, pero ¿es la respuesta correcta? Si construyo modelos de regresión lineal y de aprendizaje automático y todos llegan a la misma conclusión, ¿qué significa?

Así que, en resumen, sí, la regresión y las series temporales pueden responder a la misma pregunta y, técnicamente, las series temporales son técnicamente regresión (aunque autorregresión). Los modelos de series temporales son menos complejos y, por tanto, más robustos que los modelos de regresión. Si pensamos en la especialización, los modelos de series temporales se especializan en la previsión, mientras que la regresión se especializa en la comprensión. Todo se reduce a si se quiere explicar o predecir.

0voto

Rodolfo Puntos 1

En mi opinión, la diferencia más profunda entre las funciones de transferencia y la regresión lineal múltiple (en su uso habitual) radica en sus objetivos, las regresiones múltiples están orientadas a encontrar los principales determinantes causales observables de la variable dependiente mientras que las funciones de transferencia sólo quieren pronosticar el efecto sobre una variable dependiente de la variación de una variable exógena específica... En resumen, la regresión múltiple está orientada a la explicación exhaustiva y la función de transferencia a pronosticar efectos muy específicos...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X