Quiero comprobar que la endogeneidad de una variable de tratamiento se elimina condicionando a un conjunto de variables de control, pero no estoy del todo seguro de cómo proceder. He probado un enfoque y me gustaría conocer su opinión.
Tengo un conjunto de datos transversales con más de 200.000 individuos, siendo los hogares las unidades de muestreo. Quiero estimar el efecto causal de algún tratamiento dicotómico $X$ en un resultado continuo $Y$ . Mi modelo básico es el siguiente:
$$y_{h,i} = \beta_0 + \beta x_{h,i} + \epsilon_{h,i},$$
donde $\epsilon_{h,i}=\eta_h+\upsilon_{h,i}$ , $\eta_h$ que es un efecto del hogar (fijo o aleatorio), y $\upsilon_{h,i}$ siendo un error idiosincrásico.
El problema es que $X$ es endógena, por lo que OLS es inconsistente. Necesito emplear otros estimadores para la inferencia causal, y en mi caso los estimadores de emparejamiento son los más apropiados (no tengo un buen instrumento para $X$ y no estoy en una configuración de panel como para usar DiD). Tengo un gran tamaño de muestra, por lo que puedo permitirme el emparejamiento exacto. Utilizo el paquete R MatchIt (method="exact") para realizar el emparejamiento.
Llame a $\mathbf{Z}$ las variables que utilizo para emparejar exactamente a los individuos tratados y no tratados. El procedimiento de emparejamiento devuelve un vector de pesos estrictamente positivos, $W$ , tal que, si $x_{h,i}=1$ , $w_{h,i}=1$ ; de lo contrario, dado $\mathbf{Z}$ , $w_{h,i}=n_{\mathbf{Z},t}/(n_{\mathbf{Z}}-n_{\mathbf{Z},t})$ es decir, el peso es creciente en el número de individuos tratados emparejados y decreciente en el número total de individuos iguales en $\mathbf{Z}$ . El objetivo de estas ponderaciones es ejecutar el WLS, utilizando la siguiente versión ponderada del modelo anterior:
$$w_{h,i}y_{h,i} = w_{h,i}(\beta_0 + \beta x_{h,i} + \epsilon_{h,i}).$$
Siempre que $\mathbf{Z}$ basta con romper condicionalmente la endogeneidad de $X$ (a través de los ajustes de peso $W$ ), tengo entendido que WLS devuelve una estimación insesgada de $\beta$ que se interpreta como el efecto medio del tratamiento sobre los tratados.
Sí, pero ¿el $\mathbf{Z}$ ¿Escogí hacer el trabajo? Quiero probar esto. Quiero pruebas de que emparejar individuos en $\mathbf{Z}$ rompe la endogeneidad de $X$ y hace que mi configuración sea aleatoria, por lo que puedo hacer una inferencia causal. Esencialmente, quiero probar que $E(\epsilon_{h,i}|X,\mathbf{Z})=E(W^T\mathbf{\epsilon}|W^TX)=0$ (por favor, perdonen la notación ligeramente informal), sabiendo que $E(\epsilon_{h,i}|X)\neq0$ lo más probable.
Para empezar, he realizado una prueba de Hausman para comprobar que $Cov(\eta_h,X|\mathbf{Z})=0$ es decir, que se prefieren los efectos aleatorios a los efectos fijos en el modelo ponderado. He comprobado que esto es así (mientras que $Cov(\eta_h,X)\neq0$ lo que sugiere que se prefieren los efectos fijos en el modelo no ponderado). Este es un buen resultado, ya que muestra que $X$ no está correlacionada con parte de $\epsilon_{h,i}$ después del emparejamiento. Sin embargo, no es suficiente. También quiero probar que $Cov(\upsilon_{h,i},X|\mathbf{Z})=0$ .
Al principio pensé que podía hacer una prueba clásica de endogeneidad haciendo una regresión de $X$ en $\mathbf{Z}$ y luego añadir los residuos como regresores en el modelo ponderado. Si el coeficiente de estos residuos hubiera sido distinto de cero, habría concluido $X$ seguía siendo endógena, por lo que la coincidencia en $\mathbf{Z}$ no eliminó completamente la endogeneidad. Sin embargo, la premisa de esta prueba es que $\mathbf{Z}$ no está relacionado con $Y$ y tengo buenas razones para creer lo contrario. Así especificado, la prueba de endogeneidad no funcionará.
Por lo tanto, en lugar de retroceder $X$ en $\mathbf{Z}$ y sabiendo que no tengo ningún instrumento bueno para $X$ en absoluto, pensé que podría probar lo siguiente:
$$x_{h,i} = \delta_0 + \delta w_{h,i} + \zeta_h + v_{h,i},$$
donde $\zeta_h$ es un efecto aleatorio del hogar y $v_{h,i}$ error idiosincrásico. Pensé que entonces podría probar la endogeneidad de $X$ como es habitual, añadiendo los residuos del último modelo (los valores ajustados de $v_{h,i}$ ) como regresores en el modelo ponderado anterior y examinar el coeficiente correspondiente.
Creo que el último es una especie de modelo impar. Sin embargo, $X$ y $W$ están muy correlacionadas ( $x_{h,i}=1$ implica $w_{h,i}=1$ ), por lo que podemos explicar la primera en términos de la segunda. Obsérvese también que $W$ no está relacionado con $Y$ , excepto a través de $X$ por construcción, sólo depende de $X$ , $n_{\mathbf{Z}}$ y $n_{\mathbf{Z},t}$ Estos dos últimos no están correlacionados con $Y$ . Por esta razón, $W$ califica como "instrumento" para $X$ . Por ello, he intentado comprobar la endogeneidad utilizando esta variable pseudoinstrumental. De este modo, estoy utilizando la misma variable, $W$ como instrumento (en el $X$ -de la regresión) y como ponderaciones (en la $Y$ -regresión). Obsérvese también que, de nuevo por construcción, $Cov(\zeta_h,W)=0$ De ahí la elección de efectos aleatorios en lugar de fijos.
Siguiendo este enfoque, obtuve resultados que tienen cierto sentido. Los residuos tienen un coeficiente cero cuando se introducen en el modelo ponderado, lo que sugiere que $X$ dejó de ser endógena tras coincidir con $\mathbf{Z}$ . Luego traté de hacer la correspondencia utilizando un conjunto más pequeño de $\mathbf{Z}$ (llámalo $\mathbf{Z}'$ ), que no creía que pudiera romper la endogeneidad. Utilicé el nuevo vector de ponderaciones obtenido (llamémoslo $W'$ ) en lugar de $W$ y he encontrado que el coeficiente de los residuos es distinto de cero, lo que sugiere que $X$ seguía siendo endógena después de ese emparejamiento "reducido", como era de esperar.
Ahora, mi pregunta es: ¿tiene mi procedimiento el mismo sentido que para mí? Espero haber dejado claro que mi objetivo es comprobar que, tras emparejar a los individuos tratados y no tratados en algún conjunto de controles, la asignación del tratamiento se vuelve exógena. Mi procedimiento pretende hacer esta comprobación. ¿Cree que es correcto? ¿Necesita algunos ajustes? ¿O es un completo disparate? ¿Existe una forma mejor? Agradecería algún comentario, referencia o consejo sobre cómo tratar el asunto de forma alternativa. Gracias.