Tengo un conjunto de datos con 8000 clusters y 4 millones de observaciones. Por desgracia, mi programa estadístico Stata, se ejecuta más lentamente cuando el uso de sus datos de panel de la función de regresión logística: xtlogit
, incluso con un 10% de la submuestra.
Sin embargo, cuando se utiliza el nonpanel logit
los resultados de la función aparecen mucho antes. Por lo tanto yo podría ser capaz de beneficiarse con el uso de logit
sobre modificación de los datos de las cuentas de efectos fijos.
Creo que este procedimiento se acuñó el "Mundlak efectos fijos procedimiento" (Mundlak, Y. 1978. La agrupación de Series de Tiempo y de la Sección Transversal de los Datos. Econometrica, 46(1), 69-85.)
He encontrado una explicación intuitiva de este procedimiento en un papel por Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010). En la fabricación de reivindicaciones causales: Una revisión y recomendaciones. El Liderazgo Trimestral, 21(6). 1086-1120. Cito:
Una manera de superar el problema de omitida efectos fijos y todavía incluir el Nivel 2 variables es incluir el clúster de medios de todos los niveles 1 covariables en el modelo estimado (Mundlak, 1978). El clúster de medios puede ser incluido como regresores o resta (es decir, en el grupo-media centrado) desde el Nivel 1 covariable. El clúster de medios son invariantes dentro de clúster (y que varían entre clusters) y permitir consistente estimación de Nivel 1 parámetros como si de efectos fijos se había incluido (ver Rabe-Hesketh Y Skrondal, 2008).
Por lo tanto clúster significa centrado parece ideal y práctico para la solución de mi problema computacional. Sin embargo, estos documentos parecen estar orientadas hacia la regresión lineal (OLS).
Es este método de clúster-significa centrado también aplicable a los "replicantes" de los efectos fijos de regresión logística binaria?
Una más técnica de la pregunta que debe producir la misma respuesta sería: es xtlogit depvar indepvars, fe
con Un conjunto de datos igual a logit depvar indepvars
con el conjunto de datos B cuando el conjunto de datos B es el cluster-significa centrado en la versión de Un conjunto de datos?
Una dificultad añadida a la que he encontrado en este grupo la media de centrado es cómo lidiar con los maniquíes. Porque los maniquíes son 0 o 1, son idénticos en aleatorios y de efectos fijos de regresión? En el caso de no estar "centrado"?