Al crear las variables ficticias de tiempo, ¿cuál es el valor del grupo de control? Siempre $0$ ? Además, he normalizado la dimensión temporal ( $t=1$ en el año de tratamiento, $t=0$ es el año anterior al tratamiento, $t=-1$ es de dos años antes del tratamiento, $t=2$ es un año después del tratamiento, etc.). Pero de nuevo: ¿cómo utilizo la dimensión temporal estandarizada para el grupo de control? Stata tampoco parece aceptar que la dimensión temporal llegue a valores negativos. ¿Existe alguna forma de evitarlo y seguir capturando el tiempo? $0$ como año base y luego $2$ años antes y luego $2$ años después (es decir, los avances y retrocesos)?
Respuesta
¿Demasiados anuncios?Al crear las variables ficticias de tiempo, ¿cuál es el valor del grupo de control? ¿Siempre 0?
Sí.
El momento de la intervención no está estandarizado. De hecho, el inicio del tratamiento es escalonado en el tiempo. Es decir, algunas entidades comienzan pronto, mientras que otras lo hacen tarde. Algunos tratamientos pueden incluso invertirse. En este contexto, debe utilizarse el estimador de diferencias en diferencias "generalizado". La variable ficticia de tratamiento utilizada para estimar el efecto del tratamiento debe "activarse" (es decir, pasar de 0 a 1) si una unidad recibe tratamiento y sólo durante los años precisos de adopción de la política, 0 en caso contrario. Las unidades que nunca adoptan el tratamiento deben codificarse como 0 durante todo el período de observación. Para que quede claro, debe ser igual a 0 entre 2000 y 2019.
Pero de nuevo: ¿cómo utilizo la dimensión temporal estandarizada para el grupo de control?
No es así.
La instanciación de una variable que delimite el pre y el postratamiento es inadecuada en este contexto. El término "post-tratamiento" se define de forma diferente a través de las unidades . Por ello, no podemos asumir que las unidades de control hubieran recibido el tratamiento en un año concreto.
Stata tampoco parece aceptar que la dimensión temporal llegue a valores negativos.
Parece que ha creado una variable que denota la unidad de cada tiempo para el evento donde cada unidad es $t$ períodos en relación con el último año anterior al tratamiento (es decir $t = 0$ ). Puedo ver cómo esto genera confusión, especialmente si se tiene un subconjunto de unidades no alópteras. En mi opinión, sólo recomiendo este enfoque en entornos en los que todas las entidades entran en tratamiento. La variable que denota los períodos relativos puede entrar en el modelo como una serie de variables ficticias de tiempo que reflejan el inicio observado del tratamiento. Stata no puede manejar valores negativos asignados a una variable categórica. Añadir una constante numérica a la variable es un truco barato para evitarlo. Supongamos que añado 10 a la secuencia de enteros en la primera línea. El último año antes del tratamiento es 10.
-3 -2 -1 0 1 2 3
7 8 9 10 11 12 13
No podemos normalizar la dimensión temporal en torno a algún evento en el que exista un contrafactual adecuado. A menudo no sabemos cuándo habría entrado en tratamiento el subconjunto de no adoptados.
Un par de imágenes podrían ayudar. El marco de datos que sigue muestra 3 unidades observadas durante 20 años. Se adjunta una variable $R_{it}$ que delimita el periodos relativos antes y después del tratamiento. La variable $T_{it}$ es la variable ficticia del tratamiento. Obsérvese que no delimita un grupo de tratamiento específico. Simplemente se "enciende" (es decir, pasa de 0 a 1) una vez que una entidad tratada concreta entra en tratamiento, 0 en caso contrario. Como se indica en su mensaje, el tratamiento comienza cuando $t = 1$ y el "tiempo hasta el evento" varía según las unidades. El año de exposición es el siguiente:
- Unidad 1 adopta en 2011
- Unidad 2 adopta en 2012
- Unidad 3 adopta en 2013
Observe cómo todas las unidades se someten a tratamiento . El "efecto del tratamiento" se identifica únicamente a partir de la variación en el momento del tratamiento. Para estimar los avances y los retrasos del tratamiento, el software es ciertamente capaz de "eliminar" las variables ficticias del periodo relativo individual. De nuevo, sólo recomiendo estandarizar la dimensión temporal de este modo en entornos en los que todas las entidades acaban recibiendo tratamiento.
$$ \begin{array}{ccc} unit & time & R_{it} & T_{it} \\ \hline 1 & 2000 & -K & 0 \\ 1 & \vdots & \vdots & \vdots \\ 1 & 2008 & -2 & 0 \\ 1 & 2009 & -1 & 0 \\ 1 & 2010 & \ \ \ 0 & 0 \\ 1 & 2011 & \ \ \ 1 & 1 \\ 1 & 2012 & \ \ \ 2 & 1 \\ 1 & 2013 & \ \ \ 3 & 1 \\ 1 & 2014 & \ \ \ 4 & 1 \\ 1 & 2015 & \ \ \ 5 & 1 \\ 1 & \vdots & \vdots & \vdots \\ 1 & 2019 & \ \ \ L & 1 \\ \hline 2 & 2000 & -K & 0 \\ 2 & \vdots & \vdots & \vdots \\ 2 & 2008 & -3 & 0 \\ 2 & 2009 & -2 & 0 \\ 2 & 2010 & -1 & 0 \\ 2 & 2011 & \ \ \ 0 & 0 \\ 2 & 2012 & \ \ \ 1 & 1 \\ 2 & 2013 & \ \ \ 2 & 1 \\ 2 & 2014 & \ \ \ 3 & 1 \\ 2 & 2015 & \ \ \ 4 & 1 \\ 2 & \vdots & \vdots & \vdots \\ 2 & 2019 & \ \ \ L & 1 \\ \hline 3 & 2000 & -K & 0 \\ 3 & \vdots & \vdots & \vdots \\ 3 & 2008 & -4 & 0 \\ 3 & 2009 & -3 & 0 \\ 3 & 2010 & -2 & 0 \\ 3 & 2011 & -1 & 0 \\ 3 & 2012 & \ \ \ 0 & 0 \\ 3 & 2013 & \ \ \ 1 & 1 \\ 3 & 2014 & \ \ \ 2 & 1 \\ 3 & 2015 & \ \ \ 3 & 1 \\ 3 & \vdots & \vdots & \vdots \\ 3 & 2019 & \ \ \ L & 1 \\ \end{array} $$
El marco de datos anterior permite cualquier número de $K$ conduce y $L$ retrasos. El número de periodos previos y posteriores relativos variará según las unidades. Por ejemplo, los adoptados tardíamente tendrán invariablemente más periodos relativos previos a la política que los tratados mucho antes.
Pero supongamos que hay un subconjunto de no adoptados. ¿Cuál es su tiempo relativo de tratamiento? Por "no adoptados" me refiero a las unidades que nunca estuvieron expuestas al tratamiento en ningún periodo de tiempo (es decir, las unidades de control). En resumen, no podemos imputar su tiempo de exposición porque la intervención se enciende, y posiblemente se apaga, en diferentes momentos dentro de diferentes entidades. En mi opinión, no existe un método computacionalmente sencillo para estimar los indicadores de adelanto y/o retraso en entornos en los que el momento del tratamiento no está bien definido y en los que un subconjunto de unidades quedó sin tratar.
El siguiente ejemplo es un diseño escalonado, pero ahora el tratamiento sólo afecta a un subconjunto de unidades. En otras palabras, algunas unidades nunca reciben tratamiento . Se desconoce en gran medida la fecha exacta de inicio para los no adoptados. En los escenarios en los que queramos instanciar una ventaja o un retraso, entonces recomiendo instanciar los indicadores relativos de ventaja y/o retraso manualmente.
En el marco de datos de ejemplo que sigue tenemos 3 unidades observadas durante 20 años. En este caso, la unidad 1 no pudo recibir el tratamiento. Se trata de la(s) unidad(es) de control "siempre 0" mencionada(s) anteriormente. Observe la columna de valores bajo $T_{it}$ La unidad 1 es igual a 0 durante todo el período de observación. Los historiales de tratamiento son los siguientes:
- La unidad 1 no puede recibir el tratamiento (es decir, la unidad de control)
- Unidad 2 adopta en 2012
- Unidad 3 adopta en 2013
Supongamos ahora que se quiere estimar algunos indicadores adelantados y retrasados. El indicador $d^{+1}_{it}$ es el efecto inmediato del tratamiento. Es el primer año de adopción. Dependiendo de la disciplina, algunos pueden etiquetar $d^{0}_{it}$ como el efecto inmediato del tratamiento, y cada período posterior se denomina efecto retardado. En realidad, no importa qué periodo se califique como año de adopción inicial. Sólo hay que ser coherente. También he clasificado el último retardo (es decir, $d^{+\bar{3}}_{it}$ ). Simplemente se enciende en el tercer período después del tratamiento y se mantiene . No es necesario hacerlo en la práctica, pero debería pensar en cómo modelar el punto final. También podría estimar los efectos por separado en todos los periodos posteriores. Depende de usted.
$$ \begin{array}{ccc} unit & time & T_{it} & d^{-2}_{it} & d^{-1}_{it} & d^{0}_{it} & d^{+1}_{it} & d^{+2}_{it} & d^{+\bar{3}}_{it} \\ \hline 1 & 2000 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots\\ 1 & 2008 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 2009 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 2010 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 2011 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 2012 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 2013 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 2014 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 2015 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 1 & 2019 & 0 & 0 & 0 & 0 & 0 & & 0 \\ \hline 2 & 2000 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\ 2 & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 2 & 2008 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 2 & 2009 & 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 2 & 2010 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\ 2 & 2011 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\ 2 & 2012 & 1 & 0 & 0 & 0 & 1 & 0 & 0 \\ 2 & 2013 & 1 & 0 & 0 & 0 & 0 & 1 & 0 \\ 2 & 2014 & 1 & 0 & 0 & 0 & 0 & 0 & 1 \\ 2 & 2015 & 1 & 0 & 0 & 0 & 0 & 0 & 1 \\ 2 & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 2 & 2019 & 1 & 0 & 0 & 0 & 0 & 0 & 1 \\ \hline 3 & 2000 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 3 & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 3 & 2008 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 3 & 2009 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 3 & 2010 & 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 3 & 2011 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\ 3 & 2012 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\ 3 & 2013 & 1 & 0 & 0 & 0 & 1 & 0 & 0 \\ 3 & 2014 & 1 & 0 & 0 & 0 & 0 & 1 & 0 \\ 3 & 2015 & 1 & 0 & 0 & 0 & 0 & 0 & 1 \\ 3 & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 3 & 2019 & 1 & 0 & 0 & 0 & 0 & 0 & 1 \\ \end{array} $$
Como apunte, también es bastante común observar los efectos individuales post-tratamiento expresados de la siguiente manera: $d^{-1}_{it}, d^{-2}_{it}, d^{-3}_{it},..., d^{-L}_{it}$ donde los enteros negativos representan los rezagos. De nuevo, ¡mantenga la coherencia de la notación!
Recuerde que puede proceder de muchas maneras. Podría estimar un número finito de avances y/o rezagos, o trazar toda la dinámica de la exposición saturando el modelo. Si el tratamiento es transitorio, la incorporación de una serie completa de indicadores temporales es muy exigente. Además, algunas unidades pueden abandonar el tratamiento a lo largo del tiempo. A medida que se aleja del primer año de adopción, puede tener cada vez menos datos para estimar los rezagos. Esto no suele ser un problema en la práctica, pero es posible que los rezagos quinto, sexto y séptimo se estimen con menos precisión.