6 votos

La diferencia-en-Diferencias Estimador de Regresiones Logísticas

Tengo un pre-post intervención en estudio con cuatro grupos: 1) antes de la Intervención de Control, 2) Pre-Tratamiento de Intervención, 3) Post-Intervención, de Control, y 4) Post-Intervención. El resultado es una variable binaria. Hay otros cuatro variables predictoras. Estoy reanalizan un estudio anterior. En el estudio anterior, se utilizó una diferencia-en-diferencias estimador de regresión logística, mientras que el control de los cuatro predictores. Con los indicadores para el Tratamiento y el Tiempo, el modelo es:

$$\mbox{logit}(Pr(y=1 | \mbox{Time}, \mbox{Treat}))=\alpha_0\mbox{Time}+\alpha_1\mbox{Treat}+\alpha_2\mbox{Time}\cdot\mbox{Treat}+\beta x$$

Sin embargo, la revisión de la literatura que rodea Hizo estimadores, parece que el uso de la ¿estimadores en una regresión logit (cualquier regresión con una no lineal de la función de enlace), los resultados en la tendencia común suposición de ser violado. Usted puede pensar en cómo no puede haber una tendencia común en el resultado previsto porque tiene el apoyo entre 0 y 1. Además, dependiendo de donde la referencia, las diferencias en el índice de valor (las cosas dentro de la función logit), pueden resultar en diferentes márgenes de probabilidad de y. Si el inicio fue en algún lugar en el medio, la pequeña diferencia en el valor del índice cambiaría drásticamente predice la probabilidad, mientras que si la línea de base comenzó alta, las diferencias serían mínimas.

Entonces, ¿cuál es la solución práctica aquí? ¿Cómo hago para volver a analizar este tipo de datos? ¿Qué puedo hacer, prácticamente, para ser todavía capaz de dibujar una causal de conclusión basada en la Hizo estimador y el ya establecido el diseño del estudio? Alguna idea?

6voto

Andy Puntos 10250

Lineal Hizo Métodos
Podría seguir con el modelo de probabilidad lineal que se puede calcular fácilmente a través de mínimos cuadrados. Ejecuta una regresión lineal simple para su diferencia en diferencias de análisis tiene varias propiedades atractivas:

  • el Hizo coeficiente es fácilmente interpretables (que no es necesariamente cierto para los términos de interacción en modelos no lineales - ver Ai y Norton, 2003); no-lineal de los métodos, puede, no obstante, identificar el efecto incremental de la DiD coeficiente (ver Puhani, 2012)
  • hay varias opciones disponibles para usted para corregir la correlación serial de los errores; Bertrand et al. (2004) discutir por qué esto es importante y ofrecen varias opciones sobre cómo hacerlo (que se enumeran los métodos disponibles en una anterior respuesta)
  • el modelo de probabilidad lineal es mucho más rápido, que es especialmente cierto si usted tiene un gran conjunto de datos

Desventajas del modelo de probabilidad lineal se que es heteroscedastic por la construcción a pesar de que esto no es mucho de un problema dado que esto es fácil de ajustar. Por ejemplo, el bloque de bootstrap ajusta tanto hetereoscedasticity y autocorrelación, como se sugiere en Bertrand et al. (2004). Si usted está interesado en la predicción, las probabilidades pronosticadas puede estar fuera de el (0,1) rango pero en cuanto he leído tu pregunta se desea conocer el efecto del tratamiento de esta estimación.

Así que si ninguno de estos problemas son problemas reales para usted, el modelo de probabilidad lineal es una fácil y rápida solución para su problema de estimación.

No-Lineal Hizo Métodos
Existen alternativas a los modelos no lineales, pero ninguno de ellos es sencillo. Blundell y Dias (2009) describen el popular índice modelo bajo el supuesto de linealidad en el índice. Se nota a pesar de que incluso con un simple no-lineal de la especificación de este tipo de Hizo de regresión es difícil de implementar. Otra opción es Athey y Imbens (2006) que desarrollan una no-lineal Hizo estimador que permite para los resultados binarios. De nuevo la aplicación es de todo menos fácil, a pesar de la integridad de la menciono aquí.

La intuición de los Términos de Interacción en Modelos No Lineales
Karaca-Mandic, et al. (2012) proporcionan un análisis de la evolución de la interpretación de los términos de interacción cuando se mueve de lineal a modelos no lineales. Ellos proporcionan la formación matemática y de apoyo a la comprensión del lector, con gráficos y ejemplos aplicados a utilizar públicamente disponible Stata conjuntos de datos. Gracias Dimitry V. Masterov para señalar esta referencia útil.

-1voto

alexs77 Puntos 36

Parece que su preocupación es la de modelo misspecification. Usted está interesado en determinar si la intervención conducir a una mejora incremental en el riesgo de resultados comparando los tratados para el control del tiempo. Como suena, en particular, le preocupa que el log-lineal de término de la relación entre las probabilidades de los resultados de comparar grupos diferentes de 1 unidad en el tiempo puede no ser adecuado.

Hay dos soluciones para esto, pero en primer lugar a la nota: "todos los modelos están equivocados, algunos modelos son útiles" - George Cuadro. Nos preguntamos: ¿cuál es el riesgo de contraer el efecto del tiempo de malo? (dicen que es cuadrática) Bien, si ambos grupos son medidos de manera consistente a través del tiempo, no hay realmente ninguna diferencia. Este es el valor de diseño equilibrado. Ajuste para tiempo que mejora la precisión cuando hay desequilibrio y el modelo especificado es correcta. Si estás dispuesto a asumir que el tiempo especificado efecto es "casi correcta" (tal vez hay un débilmente no lineal de la tendencia), a continuación, utilizando errores estándar robustos asegura que la inferencia es correcta en el real efecto de la intervención. La interpretación de este parámetro es un "tiempo promedio" efecto como consecuencia de que.

Otra solución es utilizar una forma más granular efecto del tiempo. En lugar de suponer un aumento lineal, puede probar modelos anidados categórica efectos del tiempo. Supongamos, por ejemplo, hay cuatro puntos de tiempo: dos antes de la intervención, y dos después de la intervención. De la categoría de modelo sería:

$$\mbox{logit} (Y | X, T) = \alpha + \beta_1 X + \gamma_1 T_2 + \gamma_2 T_3 + \gamma_3 T_4$$

contra el modelo completo $$\mbox{logit} (Y | X, T) = \alpha + \beta_1 X + \gamma_1 T_2 + \gamma_2 T_3 + \gamma_3 T_4 + \eta X T_4 $$

Y la simultánea prueba de todos los post por los parámetros de tratamiento (una $\eta$ por cada unidad extra de tiempo después del tratamiento... de contabilidad para el efecto Hawthorne con $\beta_1$) se cuenta para un efecto categórica-por-tiempo de interacción.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X