Así que tengo bastante básico de la instalación, con $X\rightarrow Y$. Sin embargo, he corrido a través de una tercera variable Z, que es probablemente correlacionados con X e Y. sin Embargo, la relación de causalidad para Z es inusual para un sesgo de variable omitida. Todos los ejemplos de variables omitidas que he leído tienen la causalidad $Z\rightarrow X$$Z\rightarrow Y$. En mi modelo, sin embargo, que la relación de causalidad se invierte: $X\rightarrow Z$$Y\rightarrow Z$. ¿Tengo que incluir Z en mi regresión porque está correlacionada con las variables, o puedo squeak mi manera de salir de ella, porque la causalidad funciona en la otra dirección?
Respuesta
¿Demasiados anuncios?Si la regresión $y_i = \alpha + \beta X_i + \epsilon_i$, en lugar del largo de regresión $y_i = \alpha + \beta X_i + \delta Z_i + \epsilon_i$, el sesgo de variable omitida es la formula $$\widehat{\beta} = \beta + \delta \frac{Cov(X_i,Z_i)}{Var(X_i)} $$
Una prueba de esto ver aquí. Esto muestra que el sesgo se refiere a la covarianzas. Para este punto, poco importa si $X$ hace $Z$ o viceversa. Dado que el $Cov(X_i,Z_i)\neq 0$ $\delta \neq 0$ (desde $Z$ está relacionado con $Y$, de nuevo por el camino de la causalidad no hacer una diferencia), su corto de regresión sufren de sesgo de variable omitida.
[editar]
Para responder a los comentarios también debe mencionarse que el largo de regresión no está exenta de problemas. Incluir una variable en una regresión que en sí mismo es un resultado que está determinado por la variable dependiente conduce al problema de la "mala controles" (véase la sección 3.2.3 en Angrist y Pischke, p. 47). Así que si usted utiliza el largo o el corto de regresión usted va a obtener estimaciones sesgadas en cualquiera de los casos. La típica solución sería omitir $Z_i$ a partir del modelo (supongo que es observado, que es la razón para que sea una variable omitida en el primer lugar) y el uso de una variable instrumental para $X_i$.