Lo que sigue puede parecer un poco técnico debido al uso de ecuaciones, pero se basa principalmente en los gráficos de flechas para proporcionar la intuición que sólo requiere una comprensión muy básica de OLS - así que no se repulse].
Supongamos que se quiere estimar el efecto causal de $x_i$ en $y_i$ dado por el coeficiente estimado para $\beta$ pero por alguna razón hay una correlación entre su variable explicativa y el término de error:
$$\begin{matrix}y_i &=& \alpha &+& \beta x_i &+& \epsilon_i & \\ & && & & \hspace{-1cm}\nwarrow & \hspace{-0.8cm} \nearrow \\ & & & & & corr & \end{matrix}$$
Esto puede deberse a que hemos olvidado incluir una variable importante que también se correlaciona con $x_i$ . Este problema se conoce como sesgo de variable omitida y entonces su $\widehat{\beta}$ no le dará el efecto causal (véase aquí para los detalles). Este es un caso en el que se querría utilizar un instrumento porque sólo así se puede encontrar el verdadero efecto causal.
Un instrumento es una nueva variable $z_i$ que no está relacionado con $\epsilon_i$ pero que se correlaciona bien con $x_i$ y que sólo influye en $y_i$ a través de $x_i$ - así que nuestro instrumento es lo que se llama "exógeno". Es como en este gráfico de aquí:
$$\begin{matrix} z_i & \rightarrow & x_i & \rightarrow & y_i \newline & & \uparrow & \nearrow & \newline & & \epsilon_i & \end{matrix}$$
¿Cómo se utiliza esta nueva variable?
Tal vez recuerde la idea del tipo ANOVA detrás de la regresión, donde se divide la variación total de una variable dependiente en un componente explicado y otro no explicado. Por ejemplo, si haces una regresión de tu $x_i$ en el instrumento,
$$\underbrace{x_i}_{\text{total variation}} = \underbrace{a \quad + \quad \pi z_i}_{\text{explained variation}} \quad + \underbrace{\eta_i}_{\text{unexplained variation}}$$
entonces sabes que la variación explicada aquí es exógena a nuestra ecuación original porque depende de la variable exógena $z_i$ sólo. Así que en este sentido, dividimos nuestro $x_i$ en una parte que podemos afirmar que es ciertamente exógena (es la parte que depende de $z_i$ ) y alguna parte inexplicable $\eta_i$ que mantiene toda la variación mala que se correlaciona con $\epsilon_i$ . Ahora tomamos la parte exógena de esta regresión, la llamamos $\widehat{x_i}$ ,
$$x_i \quad = \underbrace{a \quad + \quad \pi z_i}_{\text{good variation} \: = \: \widehat{x}_i } \quad + \underbrace{\eta_i}_{\text{bad variation}}$$
y poner esto en nuestra regresión original: $$y_i = \alpha + \beta \widehat{x}_i + \epsilon_i$$
Ahora bien, como $\widehat{x}_i$ ya no está correlacionada con $\epsilon_i$ (recuerda que hemos "filtrado" esta parte de $x_i$ y lo dejó en $\eta_i$ ), podemos estimar sistemáticamente nuestro $\beta$ porque el instrumento nos ha ayudado a romper la correlación entre la variable explicativa y el error. Esta es una de las formas de aplicar las variables instrumentales. Este método se llama en realidad mínimos cuadrados en dos etapas, donde nuestra regresión de $x_i$ en $z_i$ se llama "primera etapa" y la última ecuación se llama "segunda etapa".
En términos de nuestra imagen original (dejo fuera el $\epsilon_i$ para no ensuciar pero ¡recordar que está ahí!), en lugar de tomar la ruta directa pero defectuosa entre $x_i$ a $y_i$ dimos un paso intermedio a través de $\widehat{x}_i$
$$\begin{matrix} & & & & & \widehat{x}_i \newline & & & & \nearrow & \downarrow \newline & z_i & \rightarrow & x_i & \rightarrow & y_i \end{matrix}$$
Gracias a este ligero desvío de nuestro camino hacia el efecto causal pudimos estimar consistentemente $\beta$ utilizando el instrumento. El coste de esta desviación es que los modelos de variables instrumentales suelen ser menos precisos, lo que significa que tienden a tener errores estándar más grandes.
¿Cómo encontramos los instrumentos?
No es una pregunta fácil porque hay que argumentar bien por qué su $z_i$ no estaría correlacionada con $\epsilon_i$ - esto no puede probarse formalmente porque el verdadero error no se observa. Por lo tanto, el principal reto consiste en idear algo que pueda considerarse exógeno de forma plausible, como las catástrofes naturales, los cambios políticos o, a veces, incluso se puede realizar un experimento aleatorio. Las otras respuestas tenían algunos ejemplos muy buenos para esto, así que no repetiré esta parte.
4 votos
¿No crees que el artículo de la Wikipedia sobre el tema es suficiente?
1 votos
Preguntas como esta requieren una respuesta tipo wiki / blog. Creo que las preguntas no deberían requerir respuestas tan largas.
0 votos
No estoy seguro de que lo correcto sea simplemente ignorar esta pregunta y remitir al preguntante a la wiki, especialmente durante la fase beta, en la que estamos tratando de construir el contenido del sitio. Tal vez el autor de la pregunta debería presentar cada una de estas preguntas individualmente para que puedan ser mejor atendidas.
4 votos
@mbq - el ejemplo de la wikipedia difícilmente puede calificarse de no técnico. Depende mucho de la jerga y las ecuaciones.
1 votos
Se ha convertido en algo común en economía en algún momento de la década de 1980. Algunos bioestadísticos también han oído hablar de ella y la aplican en el contexto de los modelos de error de medición, en los que los instrumentos se consideran estrictamente medidas adicionales disponibles. Se califican como instrumentos dentro del contexto econométrico más amplio: están correlacionados con la variable de interés, y no están correlacionados con su error de medición.
0 votos
El uso de variables instrumentales ya era bastante común cuando yo estudié por primera vez Econometría a finales de los años 70. Supongo que desde entonces se ha vuelto aún más común. Todos los paquetes de Econometría y su tío tenían la capacidad de utilizar variables instrumentales, aunque algunos de los paquetes más destacados implementaban las variables instrumentales de forma incorrecta, y no realizaban lo que se anunciaba para ciertos casos; lo sé, he visto las interioridades, que en muchos casos no coincidían con la documentación.