55 votos

¿Qué es la diferencia en las diferencias?

La diferencia en las diferencias ha sido durante mucho tiempo popular como herramienta no experimental, especialmente en economía. ¿Puede alguien dar una respuesta clara y no técnica a las siguientes preguntas sobre la diferencia en diferencias?

¿Qué es un estimador de diferencias en diferencias?
¿Para qué sirve un estimador de diferencias en diferencias?
¿Podemos realmente confiar en las estimaciones de diferencias en diferencias?

0 votos

¿Alguien sabe cómo estimar una regresión de diferencia en diferencia en gretl? ¿Tengo que trabajar con OLS o con datos de panel?

4 votos

@Pyca Parece un uso inapropiado de los comentarios allí. Deberías publicar una nueva pregunta, con referencia a esta.

87voto

Andy Puntos 10250

¿Qué es un estimador de diferencias?
La diferencia en las diferencias (DiD) es una herramienta para estimar los efectos del tratamiento comparando las diferencias antes y después del tratamiento en el resultado de un grupo de tratamiento y uno de control. En general, nos interesa estimar el efecto de un tratamiento DiDi (por ejemplo, el estado de la unión, la medicación, etc.) en un resultado YiYi (por ejemplo, salarios, salud, etc.) como en Yit=αi+λt+ρDit+Xitβ+ϵit donde αi son efectos fijos individuales (características de los individuos que no cambian con el tiempo), λt son efectos fijos de tiempo, Xit son covariables que varían en el tiempo, como la edad de los individuos, y ϵit es un término de error. Los individuos y el tiempo están indexados por i y t respectivamente. Si existe una correlación entre los efectos fijos y Dit entonces la estimación de esta regresión mediante MCO estará sesgada dado que no se controlan los efectos fijos. Este es el típico sesgo de variable omitida .

Para ver el efecto de un tratamiento nos gustaría saber la diferencia entre una persona en un mundo en el que recibió el tratamiento y otro en el que no. Por supuesto, en la práctica sólo se puede observar uno de ellos. Por lo tanto, buscamos personas con las mismas tendencias en el resultado antes del tratamiento. Supongamos que tenemos dos periodos t=1,2 y dos grupos s=A,B . Entonces, bajo el supuesto de que las tendencias en los grupos de tratamiento y control habrían continuado de la misma manera que antes en ausencia de tratamiento, podemos estimar el efecto del tratamiento como ρ=(E[Yist|s=A,t=2]E[Yist|s=A,t=1])(E[Yist|s=B,t=2]E[Yist|s=B,t=1])

Gráficamente esto se vería algo así: enter image description here

Puede calcular simplemente estas medias a mano, es decir, obtener el resultado medio del grupo A en ambos periodos y tomar su diferencia. A continuación se obtiene el resultado medio del grupo B en ambos periodos y tomar su diferencia. Luego se toma la diferencia de las diferencias y eso es el efecto del tratamiento. Sin embargo, es más conveniente hacer esto en un marco de regresión porque esto le permite

  • para controlar las covariables
  • para obtener los errores estándar del efecto del tratamiento y ver si es significativo

Para ello, puede seguir cualquiera de las dos estrategias equivalentes. Generar un grupo de control ficticio treati que es igual a 1 si una persona está en el grupo A y 0 en caso contrario, generar una variable ficticia de tiempo timet que es igual a 1 si t=2 y 0 en caso contrario, y luego regresamos Yit=β1+β2(treati)+β3(timet)+ρ(treatitimet)+ϵit

O simplemente se genera una versión ficticia Tit que es igual a uno si una persona está en el grupo de tratamiento Y el período de tiempo es el período post-tratamiento y es cero en caso contrario. Entonces se haría una regresión de Yit=β1γs+β2λt+ρTit+ϵit

donde γs es de nuevo una variable ficticia para el grupo de control y λt son variables ficticias de tiempo. Las dos regresiones dan los mismos resultados para dos períodos y dos grupos. Sin embargo, la segunda ecuación es más general, ya que se extiende fácilmente a múltiples grupos y períodos. En cualquier caso, así es como se puede estimar el parámetro de diferencia en diferencias de forma que se puedan incluir variables de control (las he dejado fuera de las ecuaciones anteriores para no saturarlas, pero se pueden incluir simplemente) y obtener errores estándar para la inferencia.

¿Por qué es útil el estimador de diferencias?
Como ya se ha dicho, el DiD es un método para estimar los efectos del tratamiento con datos no experimentales. Esa es la característica más útil. DiD es también una versión de la estimación de efectos fijos. Mientras que el modelo de efectos fijos asume E(Y0it|i,t)=αi+λt DiD hace una suposición similar, pero a nivel de grupo, E(Y0it|s,t)=γs+λt . Así que el valor esperado del resultado aquí es la suma de un efecto de grupo y un efecto temporal. ¿Cuál es la diferencia? Para la DiD no se necesitan necesariamente datos de panel siempre que las secciones transversales repetidas se extraigan de la misma unidad agregada s . Esto hace que DiD sea aplicable a una gama más amplia de datos que los modelos estándar de efectos fijos que requieren datos de panel.

¿Podemos confiar en la diferencia en las diferencias?
El supuesto más importante de la DiD es el de las tendencias paralelas (véase la figura anterior). Nunca se debe confiar en un estudio que no muestre gráficamente estas tendencias. Los trabajos de los años 90 podrían haber salido adelante con esto, pero hoy en día nuestra comprensión de la DiD es mucho mejor. Si no hay un gráfico convincente que muestre las tendencias paralelas en los resultados previos al tratamiento para los grupos de tratamiento y de control, sea cauto. Si el supuesto de las tendencias paralelas se mantiene y podemos descartar de forma creíble cualquier otro cambio variable en el tiempo que pueda confundir el tratamiento, entonces DiD es un método fiable.

También hay que tener cuidado con el tratamiento de los errores estándar. Con muchos años de datos es necesario ajustar los errores estándar para la autocorrelación. En el pasado, esto se ha descuidado, pero desde Bertrand et al. (2004) "¿Hasta qué punto debemos confiar en las estimaciones de diferencias en diferencias?" sabemos que esto es un problema. En el documento se ofrecen varios remedios para tratar la autocorrelación. El más sencillo es agrupar el identificador del panel individual, lo que permite una correlación arbitraria de los residuos entre las series temporales individuales. Esto corrige tanto la autocorrelación como la heteroscedasticidad.

Para más referencias, véanse estas notas de clase de Waldinger y Pischke .

7voto

Pat Puntos 3464

Wikipedia tiene una entrada decente sobre este tema Pero, ¿por qué no utilizar una regresión lineal que tenga en cuenta las interacciones entre las variables independientes de interés? Esto me parece más interpretable. Entonces podría leer sobre análisis de pendientes simples (en el libro de Cohen et al. gratuito en Google Books) si sus variables de interés son cuantitativas.

1voto

atomic1fire Puntos 31

Es una técnica muy utilizada en econometría para examinar la influencia de cualquier evento exógeno en una serie temporal. Se eligen dos grupos separados de datos relativos al antes y al después del acontecimiento estudiado. Una buena referencia para saber más es el libro Introducción a la econometría por Wooldridge.

2 votos

Como respuesta concisa y no técnica, esto es complementario a la respuesta de Andy, pero no creo que cubra "¿Podemos realmente confiar en las estimaciones de diferencias en diferencias?"

1voto

New in Here Puntos 1

Cuidado:

Cabe destacar dos puntos adicionales. En primer lugar, 80 de los 92 documentos originales de DD tienen un problema potencial con los términos de error agrupados, ya que la unidad de observación es más detallada que el nivel de variación (un punto discutido por Donald y Lang [2001]). Sólo 36 de estos trabajos abordan este problema, ya sea agrupando los errores estándar o agregando los datos. En segundo lugar, se utilizan varias técnicas (más o menos informales) para tratar la posible endogeneidad de la variable de intervención. Por ejemplo, tres trabajos incluyen una variable dependiente retardada en la ecuación (1), siete incluyen una tendencia temporal específica de los estados tratados, quince trazan algunos gráficos para examinar la dinámica del efecto del tratamiento, tres examinan si hay un "efecto" antes de la ley, dos comprueban si el efecto es persistente y once intentan formalmente hacer triple diferencia (DDD) encontrando otro grupo de control. En Bertrand, Duflo y Mullainathan [2002] mostramos que la mayoría de estas técnicas no alivian los problemas de correlación serial.

(Bertrand, Duflo y Mullainathan 2004, 253)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X