¿Qué es un estimador de diferencias?
La diferencia en las diferencias (DiD) es una herramienta para estimar los efectos del tratamiento comparando las diferencias antes y después del tratamiento en el resultado de un grupo de tratamiento y uno de control. En general, nos interesa estimar el efecto de un tratamiento DiDi (por ejemplo, el estado de la unión, la medicación, etc.) en un resultado YiYi (por ejemplo, salarios, salud, etc.) como en Yit=αi+λt+ρDit+X′itβ+ϵit donde αi son efectos fijos individuales (características de los individuos que no cambian con el tiempo), λt son efectos fijos de tiempo, Xit son covariables que varían en el tiempo, como la edad de los individuos, y ϵit es un término de error. Los individuos y el tiempo están indexados por i y t respectivamente. Si existe una correlación entre los efectos fijos y Dit entonces la estimación de esta regresión mediante MCO estará sesgada dado que no se controlan los efectos fijos. Este es el típico sesgo de variable omitida .
Para ver el efecto de un tratamiento nos gustaría saber la diferencia entre una persona en un mundo en el que recibió el tratamiento y otro en el que no. Por supuesto, en la práctica sólo se puede observar uno de ellos. Por lo tanto, buscamos personas con las mismas tendencias en el resultado antes del tratamiento. Supongamos que tenemos dos periodos t=1,2 y dos grupos s=A,B . Entonces, bajo el supuesto de que las tendencias en los grupos de tratamiento y control habrían continuado de la misma manera que antes en ausencia de tratamiento, podemos estimar el efecto del tratamiento como ρ=(E[Yist|s=A,t=2]−E[Yist|s=A,t=1])−(E[Yist|s=B,t=2]−E[Yist|s=B,t=1])
Gráficamente esto se vería algo así: ![enter image description here]()
Puede calcular simplemente estas medias a mano, es decir, obtener el resultado medio del grupo A en ambos periodos y tomar su diferencia. A continuación se obtiene el resultado medio del grupo B en ambos periodos y tomar su diferencia. Luego se toma la diferencia de las diferencias y eso es el efecto del tratamiento. Sin embargo, es más conveniente hacer esto en un marco de regresión porque esto le permite
- para controlar las covariables
- para obtener los errores estándar del efecto del tratamiento y ver si es significativo
Para ello, puede seguir cualquiera de las dos estrategias equivalentes. Generar un grupo de control ficticio treati que es igual a 1 si una persona está en el grupo A y 0 en caso contrario, generar una variable ficticia de tiempo timet que es igual a 1 si t=2 y 0 en caso contrario, y luego regresamos Yit=β1+β2(treati)+β3(timet)+ρ(treati⋅timet)+ϵit
O simplemente se genera una versión ficticia Tit que es igual a uno si una persona está en el grupo de tratamiento Y el período de tiempo es el período post-tratamiento y es cero en caso contrario. Entonces se haría una regresión de Yit=β1γs+β2λt+ρTit+ϵit
donde γs es de nuevo una variable ficticia para el grupo de control y λt son variables ficticias de tiempo. Las dos regresiones dan los mismos resultados para dos períodos y dos grupos. Sin embargo, la segunda ecuación es más general, ya que se extiende fácilmente a múltiples grupos y períodos. En cualquier caso, así es como se puede estimar el parámetro de diferencia en diferencias de forma que se puedan incluir variables de control (las he dejado fuera de las ecuaciones anteriores para no saturarlas, pero se pueden incluir simplemente) y obtener errores estándar para la inferencia.
¿Por qué es útil el estimador de diferencias?
Como ya se ha dicho, el DiD es un método para estimar los efectos del tratamiento con datos no experimentales. Esa es la característica más útil. DiD es también una versión de la estimación de efectos fijos. Mientras que el modelo de efectos fijos asume E(Y0it|i,t)=αi+λt DiD hace una suposición similar, pero a nivel de grupo, E(Y0it|s,t)=γs+λt . Así que el valor esperado del resultado aquí es la suma de un efecto de grupo y un efecto temporal. ¿Cuál es la diferencia? Para la DiD no se necesitan necesariamente datos de panel siempre que las secciones transversales repetidas se extraigan de la misma unidad agregada s . Esto hace que DiD sea aplicable a una gama más amplia de datos que los modelos estándar de efectos fijos que requieren datos de panel.
¿Podemos confiar en la diferencia en las diferencias?
El supuesto más importante de la DiD es el de las tendencias paralelas (véase la figura anterior). Nunca se debe confiar en un estudio que no muestre gráficamente estas tendencias. Los trabajos de los años 90 podrían haber salido adelante con esto, pero hoy en día nuestra comprensión de la DiD es mucho mejor. Si no hay un gráfico convincente que muestre las tendencias paralelas en los resultados previos al tratamiento para los grupos de tratamiento y de control, sea cauto. Si el supuesto de las tendencias paralelas se mantiene y podemos descartar de forma creíble cualquier otro cambio variable en el tiempo que pueda confundir el tratamiento, entonces DiD es un método fiable.
También hay que tener cuidado con el tratamiento de los errores estándar. Con muchos años de datos es necesario ajustar los errores estándar para la autocorrelación. En el pasado, esto se ha descuidado, pero desde Bertrand et al. (2004) "¿Hasta qué punto debemos confiar en las estimaciones de diferencias en diferencias?" sabemos que esto es un problema. En el documento se ofrecen varios remedios para tratar la autocorrelación. El más sencillo es agrupar el identificador del panel individual, lo que permite una correlación arbitraria de los residuos entre las series temporales individuales. Esto corrige tanto la autocorrelación como la heteroscedasticidad.
Para más referencias, véanse estas notas de clase de Waldinger y Pischke .
0 votos
¿Alguien sabe cómo estimar una regresión de diferencia en diferencia en gretl? ¿Tengo que trabajar con OLS o con datos de panel?
4 votos
@Pyca Parece un uso inapropiado de los comentarios allí. Deberías publicar una nueva pregunta, con referencia a esta.