13 votos

Regresión normal vs regresión cuando las variables son diferenciadas

Sólo estoy tratando de entender cuál es la relación entre una normal y múltiple regresión simple o múltiples/regresión simple cuando las variables son diferenciadas.

Por ejemplo, yo soy el análisis de la relación entre la balanza de depósito ($Y_T$) frente a tasas de mercado ($R_T$) Si quiero correr una regresión lineal simple, la correlación es negativa y muy significativa (.74) Sin embargo, si puedo tomar el registro y la diferencia de la variable dependiente y la diferencia de la variable independiente, por lo que mi ecuación es ahora $d\, \ln(Y_T)$ retrocedido con $d\, R(T)$, mi correlaciones y R^2 no son significativas en todos ($R^2 = .004$).

Me preguntaba si esta baja $R^2$ significa nada? Qué significa que mi modelo no es un buen ajuste, o hacer caso omiso de la $R^2$ cuando estoy mirando diferenciadas de datos? Sé que a partir de los datos existe una correlación significativa entre las dos variables, sin embargo para mi modelo tengo que mirar en las variables diferenciadas, por lo que sólo me preguntaba cómo ir sobre esto.

16voto

Sean Hanley Puntos 2428

La versión simple es que cualquiera de las dos variables que tienden a cambiar en una dirección en el tiempo parecen estar correlacionados, si había alguna conexión entre ellos o no. Considerar las siguientes variables:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

$x$ es sólo una función del tiempo, como es $y1$. $y2$ es una función de tiempo y de $x$. El punto es reconocer el código que realmente existe una relación entre el$x$$y2$, y que no hay ninguna relación entre el$x$$y1$. Ahora mira en la siguiente figura, las tres líneas de aspecto muy similar, ¿no?

enter image description here

De hecho, el $R^2$ valor de la relación entre el $x$ $y1$ es de 98%, y el $R^2$ $x$ $y2$ es de 99%. Pero sabemos que no existe ninguna relación entre el$x$$y1$, mientras que existe entre el$x$$y2$, entonces, ¿cómo podemos diferenciar lo real de la mera apariencia? Que es donde la diferenciación viene en. Para cualquiera de las dos variables, ya que ambos tienden a subir con el tiempo, que no es muy informativo, pero dado que uno va por una cantidad específica, hace que nos dicen lo mucho que el otro va? La diferenciación nos permite responder a esa pregunta. Nota las siguientes dos figuras, diagramas de dispersión hice después de la diferenciación de las tres variables.

enter image description here

enter image description here

Aquí, vemos claramente que saber algo acerca de cuánto $x$ subieron nos dice algo acerca de cuánto $y2$ ( $R^2=.43$ ), pero que este no es el caso de $x$ y $y1$ ($R^2=.07$). Así que la respuesta a tu pregunta es que usted debe hacer caso omiso de las correlaciones entre variables originales y mirar las diferencias de las variables. Dado que su $R^2$ es .004, yo diría que no hay relación.

Algunos otros puntos: En las figuras, que haga un punto de señalar que estos son los cambios simultáneos. No hay nada malo con eso, y se sigue de la manera puedo configurar el problema, pero por lo general las personas están interesadas en los efectos en algunos de los gal. (Es decir, el cambio de una cosa en un momento en el tiempo, conduce a cambio de algo más después.) En segundo lugar, la mención de tomar el registro de una de sus series. Tomando el registro simplemente cambia sus datos a partir de los niveles de las tasas. Y así, cuando la diferencia, usted está buscando en los cambios en las tasas en lugar de los cambios en los niveles. Eso es muy común, pero yo no incluir este elemento en mi demostración; es ortogonal a los temas que se discuten. Por último, quiero reconocer que los datos de series de tiempo son a menudo más complicado que mi demostración permite. Una visión global requeriría un libro de duración del tratamiento, pero @Charlie respuesta hace un buen trabajo de manera sucinta señalando algunas de las complejidades que me dejó fuera.

10voto

simmosn Puntos 304

@gung ofrece una buena respuesta, pero quiero ofrecer algunas salvedades a lo que estás sugiriendo.

La diferenciación es principalmente utilizado para combatir el problema de la unidad de raíces, por ejemplo, cuando el proceso AR(1) con un coeficiente de correlación de 1. La diferenciación puede ser utilizado de forma eficaz para quitar un tiempo lineal de la tendencia cuando el término de error es ruido blanco (en particular, no presenta correlación serial), como @gung muestra arriba. Pero, si el término de error tiene correlación serial con un coeficiente de correlación menor que 1 en valor absoluto, el uso de la diferenciación para quitar un tiempo lineal de la tendencia produce errores con una estructura complicada. Es difícil obtener datos precisos de los errores estándar y hacer inferencias válidas en este caso.

Como resultado, es mejor para la prueba de una unidad de la raíz primera y, si se detecta, para arreglar eso, a través de la diferenciación. A continuación, compruebe de un tiempo lineal de la tendencia. Solucionar este problema por detrending. Sin esto último, usted está abierto a las variables omitidas tipo de problema que @gung ilustra adecuadamente.

1voto

Owen Fraser-Green Puntos 642

Cuando el objetivo es formar a los/identificar la relación entre dos o más series , que uno pueda necesitar para filtrar los estacionaria de la variable X con el fin de transformar el ruido. Este es un proceso de dos pasos , la diferenciación necesaria y el ARMA de la estructura . Para conservar la objetividad y evitar el Sesgo de Especificación del Modelo no se debe asumir el filtro, pero en lugar de construir que filtro usar la autocorrelative la naturaleza de la estacionario de la serie X. Luego uno se lleva la serie Y y se aplica sea cual sea la diferenciación de los operadores son necesarios para que sea estacionaria y, a continuación, aplicar el desarrollado previamente filtro para el tipo de papel Y . Este procedimiento tiene uno y sólo un objetivo y eso es identificar la relación entre y y X. Uno nunca debe de saltar a conclusiones acerca de la necesaria diferenciación de los operadores, el ARMA de filtro y la relación entre las variables a menos que uno sea un econometra que conoce el modelo antes de observar los datos o si hablar directamente con el todopoderoso. Un análisis cuidadoso con respecto a la normalidad de los errores requisito necesario para creer que cualquier prueba estadística que puede ser calculado. El cálculo de la F exámenes/ pruebas de T es necesario pero no suficiente. En resumen, yo sugiero que usted profundizar en el tema de "Cómo Identificar una Función de Transferencia del Modelo" . Los demás y me han tratado este tema en un número de ocasiones. Si usted desea que usted podría hojear algunas de las respuestas a las preguntas que tienen la etiqueta de "series de tiempo" conectados a ellos. Como Yogui dijo: "Se puede observar una gran cantidad simplemente leyendo / viendo". A veces agradable y simplemente respuestas pueden llevar por el mal camino y potencialmente demasiado complicado/conservador respuestas como la mía podría requerir para desarrollar una mejor comprensión de la modelización de datos de series de tiempo. Como una vez dijo: "Toto, no estamos en Kansas (es decir, datos de corte transversal) nunca más !"

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X