4 votos

¿Puedo utilizar las ponderaciones de emparejamiento para comprobar que se elimina la endogeneidad del tratamiento tras el emparejamiento exacto?

Quiero comprobar que la endogeneidad de una variable de tratamiento se elimina condicionando a un conjunto de variables de control, pero no estoy del todo seguro de cómo proceder. He probado un enfoque y me gustaría conocer su opinión.

Tengo un conjunto de datos transversales con más de 200.000 individuos, siendo los hogares las unidades de muestreo. Quiero estimar el efecto causal de algún tratamiento dicotómico $X$ en un resultado continuo $Y$ . Mi modelo básico es el siguiente:

$$y_{h,i} = \beta_0 + \beta x_{h,i} + \epsilon_{h,i},$$

donde $\epsilon_{h,i}=\eta_h+\upsilon_{h,i}$ , $\eta_h$ que es un efecto del hogar (fijo o aleatorio), y $\upsilon_{h,i}$ siendo un error idiosincrásico.

El problema es que $X$ es endógena, por lo que OLS es inconsistente. Necesito emplear otros estimadores para la inferencia causal, y en mi caso los estimadores de emparejamiento son los más apropiados (no tengo un buen instrumento para $X$ y no estoy en una configuración de panel como para usar DiD). Tengo un gran tamaño de muestra, por lo que puedo permitirme el emparejamiento exacto. Utilizo el paquete R MatchIt (method="exact") para realizar el emparejamiento.

Llame a $\mathbf{Z}$ las variables que utilizo para emparejar exactamente a los individuos tratados y no tratados. El procedimiento de emparejamiento devuelve un vector de pesos estrictamente positivos, $W$ , tal que, si $x_{h,i}=1$ , $w_{h,i}=1$ ; de lo contrario, dado $\mathbf{Z}$ , $w_{h,i}=n_{\mathbf{Z},t}/(n_{\mathbf{Z}}-n_{\mathbf{Z},t})$ es decir, el peso es creciente en el número de individuos tratados emparejados y decreciente en el número total de individuos iguales en $\mathbf{Z}$ . El objetivo de estas ponderaciones es ejecutar el WLS, utilizando la siguiente versión ponderada del modelo anterior:

$$w_{h,i}y_{h,i} = w_{h,i}(\beta_0 + \beta x_{h,i} + \epsilon_{h,i}).$$

Siempre que $\mathbf{Z}$ basta con romper condicionalmente la endogeneidad de $X$ (a través de los ajustes de peso $W$ ), tengo entendido que WLS devuelve una estimación insesgada de $\beta$ que se interpreta como el efecto medio del tratamiento sobre los tratados.

Sí, pero ¿el $\mathbf{Z}$ ¿Escogí hacer el trabajo? Quiero probar esto. Quiero pruebas de que emparejar individuos en $\mathbf{Z}$ rompe la endogeneidad de $X$ y hace que mi configuración sea aleatoria, por lo que puedo hacer una inferencia causal. Esencialmente, quiero probar que $E(\epsilon_{h,i}|X,\mathbf{Z})=E(W^T\mathbf{\epsilon}|W^TX)=0$ (por favor, perdonen la notación ligeramente informal), sabiendo que $E(\epsilon_{h,i}|X)\neq0$ lo más probable.

Para empezar, he realizado una prueba de Hausman para comprobar que $Cov(\eta_h,X|\mathbf{Z})=0$ es decir, que se prefieren los efectos aleatorios a los efectos fijos en el modelo ponderado. He comprobado que esto es así (mientras que $Cov(\eta_h,X)\neq0$ lo que sugiere que se prefieren los efectos fijos en el modelo no ponderado). Este es un buen resultado, ya que muestra que $X$ no está correlacionada con parte de $\epsilon_{h,i}$ después del emparejamiento. Sin embargo, no es suficiente. También quiero probar que $Cov(\upsilon_{h,i},X|\mathbf{Z})=0$ .

Al principio pensé que podía hacer una prueba clásica de endogeneidad haciendo una regresión de $X$ en $\mathbf{Z}$ y luego añadir los residuos como regresores en el modelo ponderado. Si el coeficiente de estos residuos hubiera sido distinto de cero, habría concluido $X$ seguía siendo endógena, por lo que la coincidencia en $\mathbf{Z}$ no eliminó completamente la endogeneidad. Sin embargo, la premisa de esta prueba es que $\mathbf{Z}$ no está relacionado con $Y$ y tengo buenas razones para creer lo contrario. Así especificado, la prueba de endogeneidad no funcionará.

Por lo tanto, en lugar de retroceder $X$ en $\mathbf{Z}$ y sabiendo que no tengo ningún instrumento bueno para $X$ en absoluto, pensé que podría probar lo siguiente:

$$x_{h,i} = \delta_0 + \delta w_{h,i} + \zeta_h + v_{h,i},$$

donde $\zeta_h$ es un efecto aleatorio del hogar y $v_{h,i}$ error idiosincrásico. Pensé que entonces podría probar la endogeneidad de $X$ como es habitual, añadiendo los residuos del último modelo (los valores ajustados de $v_{h,i}$ ) como regresores en el modelo ponderado anterior y examinar el coeficiente correspondiente.

Creo que el último es una especie de modelo impar. Sin embargo, $X$ y $W$ están muy correlacionadas ( $x_{h,i}=1$ implica $w_{h,i}=1$ ), por lo que podemos explicar la primera en términos de la segunda. Obsérvese también que $W$ no está relacionado con $Y$ , excepto a través de $X$ por construcción, sólo depende de $X$ , $n_{\mathbf{Z}}$ y $n_{\mathbf{Z},t}$ Estos dos últimos no están correlacionados con $Y$ . Por esta razón, $W$ califica como "instrumento" para $X$ . Por ello, he intentado comprobar la endogeneidad utilizando esta variable pseudoinstrumental. De este modo, estoy utilizando la misma variable, $W$ como instrumento (en el $X$ -de la regresión) y como ponderaciones (en la $Y$ -regresión). Obsérvese también que, de nuevo por construcción, $Cov(\zeta_h,W)=0$ De ahí la elección de efectos aleatorios en lugar de fijos.

Siguiendo este enfoque, obtuve resultados que tienen cierto sentido. Los residuos tienen un coeficiente cero cuando se introducen en el modelo ponderado, lo que sugiere que $X$ dejó de ser endógena tras coincidir con $\mathbf{Z}$ . Luego traté de hacer la correspondencia utilizando un conjunto más pequeño de $\mathbf{Z}$ (llámalo $\mathbf{Z}'$ ), que no creía que pudiera romper la endogeneidad. Utilicé el nuevo vector de ponderaciones obtenido (llamémoslo $W'$ ) en lugar de $W$ y he encontrado que el coeficiente de los residuos es distinto de cero, lo que sugiere que $X$ seguía siendo endógena después de ese emparejamiento "reducido", como era de esperar.

Ahora, mi pregunta es: ¿tiene mi procedimiento el mismo sentido que para mí? Espero haber dejado claro que mi objetivo es comprobar que, tras emparejar a los individuos tratados y no tratados en algún conjunto de controles, la asignación del tratamiento se vuelve exógena. Mi procedimiento pretende hacer esta comprobación. ¿Cree que es correcto? ¿Necesita algunos ajustes? ¿O es un completo disparate? ¿Existe una forma mejor? Agradecería algún comentario, referencia o consejo sobre cómo tratar el asunto de forma alternativa. Gracias.

2voto

John G Puntos 2347

A) El emparejamiento se basa exactamente en el mismo conjunto de condiciones de identificación que los MCO, y sólo difiere en la falta de un requisito para hacer suposiciones sobre las formas funcionales que relacionan el tratamiento/los factores de confusión con el resultado: si un efecto causal no está identificado para los MCO, no está identificado para el emparejamiento.

B) La suposición básica de la que hablas (selección en observables) no es comprobable. No hay nada que puedas hacer con los datos observados para determinar si es cierto o no, porque se basa precisamente en la información que falta (los resultados potenciales bajo tratamiento/control).

Si no dispone de instrumentos/experimentos naturales, puede intentar buscar "pruebas de falsificación", es decir, resultados que puedan verse afectados por factores de confusión compartidos, pero en los que conozca (o está dispuesto a asumir, basándose en su conocimiento del área) que no puede haber un efecto causal del tratamiento. Si se encuentra un efecto del tratamiento en dicho resultado neto de controles, indica que hay confusión no observada y sus estimaciones en el análisis principal están sesgadas. Si no es así, puede que sigan estando sesgadas.

Espero que esto sea útil - el punto principal es que no se puede determinar si la selección en los observables se mantiene sobre la base de los datos observados.

0voto

Jonathan Puntos 41

He aquí algunas sugerencias:

  1. Prueba de falsificación/placebo. Como se sugiere en la primera respuesta. Si tiene un resultado alternativo que sabe que no se ve afectado por el tratamiento, puede evaluar la credibilidad de sus resultados primarios; por ejemplo, si el resultado principal son los ingresos después del tratamiento, los ingresos antes del tratamiento son un candidato ideal.
  2. Equilibrio de las covariables. Si tiene covariables adicionales (posibles factores de confusión) que no utilizó en el emparejamiento, puede comprobar el equilibrio entre los individuos tratados y los no tratados a través de ellas. Las diferencias significativas entre los grupos hacen que los resultados sean menos creíbles.

Suponiendo que se ejecuta una regresión con covariables:

  1. Estabilidad del coeficiente. ¿Cambia mucho el efecto estimado del tratamiento cuando se añaden posibles factores de confusión adicionales? Si es así, los resultados son menos creíbles.
  2. "Prueba de Oster". Basándose en la diferencia entre el efecto del tratamiento no controlado y el controlado y el R-cuadrado, se puede calcular un efecto del tratamiento ajustado al sesgo. En esencia, si la inclusión de covariables afectó muy poco al efecto del tratamiento estimado pero condujo a una R-cuadrado mucho mayor, los resultados son más creíbles.

Estoy de acuerdo con la primera respuesta. No hay ninguna prueba estadística para esto. Se trata de evaluar la credibilidad.

En cuanto a su enfoque de coincidencia, ¿por qué está haciendo WLS? Basándome en mis (ciertamente limitados) conocimientos sobre el emparejamiento, normalmente emparejamos un individuo tratado con un individuo de control y descartamos el resto. No estoy seguro de qué se gana con mantener a todos ellos.

Si utiliza el emparejamiento en lugar de la regresión porque cree que sus covariables son endógenas, no creo que haya evitado el problema. Si los controles son malos, no debería controlarlos mediante el emparejamiento o la regresión. Sin embargo, los controles malos pueden ser mejores que la ausencia de controles. Lo que quiero decir es que, ya que está haciendo una regresión, debería incluir las covariables.

Además, yo no me basaría en la prueba de Hausman para decidir si utilizar o no efectos fijos. Con los efectos fijos para los hogares se están comparando los resultados dentro de cada hogar. La estrategia de identificación es muy diferente a la de comparar individuos de diferentes hogares. Y si cree que los efectos aleatorios están bien, entonces OLS con errores estándar robustos también debería estar bien, lo que parece una opción más estándar que GLS, en mi opinión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X