12 votos

¿Por qué utilizar un DV de la retardada como variable instrumental?

He heredado algunos de análisis de datos de código que, al no ser un econometra, estoy tratando de entender. Uno de los modelos instrumental variables de regresión con los siguientes comandos de Stata

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

Este conjunto de datos es un panel con múltiples secuencial de observaciones para este conjunto de variables.

¿Por qué es este código utilizando los valores desfasados de la DV como instrumentos? Como yo lo entiendo (de cavar en un viejo libro de texto), IV estimación se utiliza cuando hay un problema a causa de un regresor está correlacionada con el término de error. Sin embargo, no se menciona nada de la elección de rezagos de la DV como instrumentos.

Un comentario en esta línea del código que se menciona la "causalidad". Cualquier ayuda en averiguar cuál era el objetivo en este caso sería la mayoría de la recepción.

7voto

Patrick Puntos 183

Edit: Dada la aclaración sobre el programa stata código proporcionado por Andy W a continuación, he cambiado mi respuesta a la mejor dirección de la pregunta. Encontrará la versión antigua de mi respuesta por debajo de la actual.

Parece que el código es un torpe intento de BRICOLAJE ing las Arellano-Bond estimador (suponiendo ivreg estimaciones con 2SOLS). Usted puede encontrar más información sobre el uso y la lógica de la A/B estimador en este bonito artículo de revisión , así como en esta introducción más amplia.

En una cáscara de nuez y dentro de 3 líneas: a pesar de que el A/B estimador es, de hecho, un (generalizada) IV estimador, no se utiliza para tratar cualquier problema de la causalidad. El IV en este contexto son utilizados para proporcionar una estimación eficiente de la AR coeficiente en el contexto de datos de panel.

Yo recomendaría contra la re-inventar la rueda, y en lugar de utilizar listo caja de herramientas para realizar dichas estimaciones. Para stata, puede utilizar el XTABOND2 (o XTABOND si está ejecutando STAT11) paquete.


vieja respuesta:

Un ejemplo simple que le ayudará aquí. Supongamos que se tienen dos variables $x_t$ $y_t$ muestreada en el tiempo para que la correlación entre el $x_t$ $y_t$ es muy alta. Te gustaría hacer una afirmación sobre la $x_t$ causando $y_t$ pero por desgracia no es una muy buena competencia y creíble la teoría en virtud de la cual $y_t$ hace $x_t$.

Para separar los dos modelos de la competencia, la regresión $y_t$ $x_{t-1}$ (en lugar de $x_t$). A menudo, usted va a perder en precisión (es decir, la correlación entre las variables muestreadas en diferentes momentos es generalmente menor que la correlación entre la variable muestreada de forma simultánea).

La forma en que los dos modelos de la competencia - $y_t\leftarrow x_{t-1}$ $x_{t-1} \leftarrow y_{t}$ - son ahora desenredado es que, presumiblemente, no hay una buena teoría en virtud de la cual una $x$ de un período de años puede ser causada por una corriente $y$ ('el pasado no puede ser causada por el futuro"), excluyendo el segundo sentido de la causalidad.

Tenga en cuenta que el uso de este truco es válido sólo si ambas variables (la $y_t$ $x_{t-1}$ son estacionarias $I(0)$).

5voto

Judioo Puntos 625

Para aquellos no familiarizados con el siguiente fragmento de código de Stata el OP siempre

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

esta ecuación se puede leer como

$Y_t = \alpha + \beta_1 (Var1) + \beta_2 (Var1) + \beta_3 (Var1) + \beta_4 (\tilde{Y}_{t-1})$

donde $\tilde{Y}_{t-1}$ es estimado por la

$\tilde{Y}_{t-1} = \alpha + Z_1(\Delta^{2}Y_t) + Z_2(\Delta^{3}Y_t) + Z_3(\Delta^{4}Y_t)$

(es decir, la primera etapa de la IV ecuación está dentro de los paréntesis en el Stata código)

Los deltas representan el segundo, tercer y cuarto orden diferencias, y se utilizan como instrumentos excluidos para estimar el retardo de la variable dependiente.

En Stata código, el L. indica quedando a la que la variable $t-1$, e D. significa primeras diferencias de orden de esa variable, y por lo tanto, D2. significa que de segundo orden de diferenciación.

Al principio yo no podía pensar en ningún razonamiento lógico ¿por qué alguien haría esto. Pero Kwak señaló (que hacen referencia a este documento) que los Arellano-Bond método utiliza las diferencias como instrumentos para la estimación de la auto-regresivo de los componentes de la modelo. (También al principio había supuesto que las diferencias sólo tienen efecto si la serie es no estacionaria, que de Bonos de los estados en los que enlaza el papel de las diferencias sólo será débil instrumentos en el caso de que la serie es un paseo aleatorio, en la pg. 21)

Como sugerencias sobre más material de lectura como de introducción de variables instrumentales,

Otro cartel en esta respuesta (Charlie) vinculados a algunas de las diapositivas que preparado que me gusta y me sugieren que son vale la pena considerar para una introducción de variables instrumentales. Te recomiendo también este powerpoint a un profesor mío, preparado para un taller como una introducción así. Como una última sugerencia para cualquier persona instrested en aprender más acerca de variables instrumentales usted debe buscar el trabajo de Josué Angrist.

Aquí está mi respuesta inicial


Aunque estoy de acuerdo con todo lo que Kwak y el ars han dicho, todavía no puedo pensar en ninguna razón por qué alguien usaría las diferencias de los dependientes de la variable como instrumentos para estimar el retardo de la variable dependiente (si la gente no sabe de Stata código, el L. indica quedando a la que la variable $t-1$, e D. significa primeras diferencias de orden de esa variable, y por lo tanto, D2. significa de segundo orden de diferenciación).

En todas las aplicaciones que he visto, la gente usa el lag de independiente variables como instrumentos para estimar el retardo de la variable dependiente (por razones ars habla). Pero esto se basa en la suposición de que los rezagados de las variables independientes son exógenos para el término de error en el período de tiempo en que se están aplicando.

No sé de ningún razonamiento en el que las diferencias de la variable dependiente sería considerado exógeno. Hasta donde yo soy consciente de que no es una práctica aceptada diferencia de sólo un lado de la ecuación, y produciría más ilógico de los resultados (aquí es un documento que critica a alguien sobre la situación inversa en la que se incluye una de las variables de nivel como un predictor de un diferenciadas de la serie). Si usted reorganizar los términos en la ecuación IV que en realidad se ve similar a una aumentada de Dickey Fuller prueba.

Mientras que la respuesta más sencilla sería pedirle a la persona que escribió el código, ¿alguien puede dar un ejemplo en el que este procedimiento sería aceptable, o cualquier situación en la que este procedimiento de devolución de algunos resultados significativos? Como es que no se puede pensar de cualquier razonamiento lógico ¿por qué las diferencias que pudieran tener un efecto sobre los niveles excepto en el caso de que la serie es no estacionaria.

5voto

Omar Kooheji Puntos 384

No sé Stata, así que no puedo comentar sobre el modelo específico. Pero el uso de las variables desfasadas es una forma bastante común de enfoque cuando se trata con el sesgo de simultaneidad, en general, y la creación de variables instrumentales en particular.

Digamos que tienes un feedback entre dos variables en el modelo: la variable independiente (como el precio) y la variable dependiente (tales como la cantidad). Entonces ambos son endógeno (sus causas surgir desde dentro del modelo) y las perturbaciones para el término de error afectará a ambas variables.

Para solucionar esto, usted quiere asegurarse de la variable independiente (precio) exógenas, de modo que las perturbaciones en el error de sólo afectan a la variable dependiente (cantidad). Esto se logra mediante la creación de nuevos exógenas variables en la regresión de las otras variables exógenas en el modelo en el precio. Estas nuevas variables exógenas son sus variables instrumentales (Iv). Los IVs son los derivados de la exógenas términos y por lo tanto no se correlaciona con el error.

Pero para hacer esto, usted necesita para determinar qué variables son exógenas, así que puede ser usado para derivar el IVs. Podemos observar que las variables desfasadas "producido" en el pasado y por lo tanto no pueden ser correlacionados con el error en el presente. Las variables desfasadas por tanto son exógenas y ser conveniente a los candidatos para la obtención de IVs. (Sin embargo, tenga en cuenta que el anterior argumento falla cuando los errores son autocorrelated.)

Una buena introducción y referencia a esto es Introductoria de la econometría: un enfoque moderno, por Wooldridge.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X