42 votos

¿Cuándo utilizar efectos fijos frente a utilizar SEs de cluster?

Supongamos que se dispone de una única sección transversal de datos en la que los individuos se encuentran dentro de grupos (por ejemplo, estudiantes dentro de escuelas) y se desea estimar un modelo de la forma Y_i = a + B*X_i donde X es un vector de características a nivel individual y a una constante.

En este caso, supongamos que la heterogeneidad no observada entre grupos sesga sus estimaciones puntuales de B y sus SEs ya que está correlacionado con su variable independiente de interés.

Una opción es agrupar sus SEs por grupos (escuelas). Otra es incluir las EF de grupo. Otra es utilizar ambas. ¿Qué hay que tener en cuenta a la hora de elegir entre estas opciones? En particular, no está claro por qué uno podría agrupar los SE por grupo Y utilizar las EF de grupo. En mi caso concreto, tengo 35 grupos y 5.000 individuos anidados en cada grupo. He seguido el debate en este pdf pero no está muy claro por qué y cuándo se pueden utilizar tanto los SEs agrupados como los efectos fijos.

(Por favor, discuta los pros y los contras de los SEs agrupados frente a los FEs en lugar de sugerir que simplemente ajuste un modelo multinivel).

37voto

hstoerr Puntos 698

Ambos enfoques, el uso de efectos fijos de grupo y/o el error estándar ajustado por conglomerados, tienen en cuenta diferentes cuestiones relacionadas con los datos agrupados (o de panel) y yo los consideraría claramente como enfoques distintos. A menudo es conveniente utilizar ambos:

En primer lugar, el error estándar ajustado por conglomerados tiene en cuenta la correlación dentro de los conglomerados o la heteroscedasticidad que el estimador de efectos fijos no tiene en cuenta, a menos que esté dispuesto a hacer más suposiciones, véase el Diapositivas de la conferencia de Imbens y Wooldridge para una buena discusión de los paneles cortos y largos y varias cuestiones relacionadas con este problema . También hay un novedoso trabajo sobre este tema de Cameron y Miller: Guía del profesional para la inferencia basada en clusters que podría ser interesante para usted. Si no quiere modelar la matriz de varianza-covarianza y sospecha que hay correlación dentro del cluster, le aconsejo que utilice el error estándar robusto del cluster porque el sesgo en su SE puede ser severo (mucho más problemático que para la heteroscedasticidad, ver Angrist & Pischke Capítulo III.8 para un debate sobre este tema. Pero se necesita un número suficiente de conglomerados (Angrist y Pischke dicen que 40-50 como regla general). El error estándar ajustado por conglomerados tiene en cuenta el error estándar, pero no modifica las estimaciones puntuales (el error estándar suele aumentar).

La estimación de efectos fijos tiene en cuenta la heterogeneidad no observada e invariable en el tiempo (como ha mencionado). Esto puede ser bueno o malo: Por un lado, se necesitan menos supuestos para obtener estimaciones consistentes. Por otro lado, se desecha una gran cantidad de varianza que podría ser útil. Algunas personas, como Andrew Gelman, prefieren modelización jerárquica a los efectos fijos, pero aquí las opiniones difieren. La estimación de efectos fijos cambiará tanto las estimaciones puntuales como las de intervalo (también en este caso el error estándar suele ser mayor).

Así que para resumir: Los errores estándar reforzados por conglomerados son una forma sencilla de tener en cuenta los posibles problemas relacionados con los datos agrupados si no quiere molestarse en modelar la correlación inter e intraclúster (y hay suficientes conglomerados disponibles). La estimación de efectos fijos utilizará sólo cierta variación, por lo que depende de su modelo si quiere hacer estimaciones basadas en menos variación o no. Pero sin otros supuestos, la estimación de efectos fijos no se ocupará de los problemas relacionados con la correlación intraclúster para la matriz de varianza. Tampoco el error estándar reforzado por conglomerados tendrá en cuenta los problemas relacionados con el uso de la estimación de efectos fijos.

29voto

Steven Puntos 2050

Los efectos fijos sirven para eliminar la heterogeneidad no observada ENTRE los diferentes grupos de sus datos.

No estoy de acuerdo con la implicación en la respuesta aceptada de que la decisión de utilizar un modelo de EF dependerá de si quiere utilizar "menos variación o no". Si su variable dependiente está afectada por variables no observables que varían sistemáticamente entre los grupos de su panel, entonces el coeficiente de cualquier variable que esté correlacionada con esta variación estará sesgado. A menos que sus variables X hayan sido asignadas aleatoriamente (y nunca lo serán con datos de observación), suele ser bastante fácil argumentar el sesgo de las variables omitidas. Usted puede ser capaz de controlar algunas de las variables omitidas con una buena lista de variables de control, pero si la identificación fuerte es su objetivo número 1, incluso una extensa lista de controles puede dejar espacio para que los lectores críticos duden de sus resultados. En estos casos, suele ser una buena idea utilizar un modelo de efectos fijos.

Los errores estándar agrupados sirven para tener en cuenta las situaciones en las que las observaciones DENTRO de cada grupo no están i.i.d. (distribuidas de forma independiente e idéntica).

Un ejemplo clásico es el de tener muchas observaciones para un panel de empresas a lo largo del tiempo. Puede tener en cuenta los efectos fijos a nivel de empresa, pero aún puede haber alguna variación no explicada en su variable dependiente que esté correlacionada a través del tiempo. En general, cuando se trabaja con datos de series temporales, suele ser seguro asumir la correlación serial temporal en los términos de error dentro de sus grupos. Estas situaciones son los casos de uso más obvios para los SEs agrupados.

Algunos ejemplos ilustrativos:

Si tiene datos experimentales en los que asigna los tratamientos al azar, pero realiza observaciones repetidas para cada individuo/grupo a lo largo del tiempo, estaría justificado omitir los efectos fijos, pero querría agrupar sus SE.

Alternativamente, si tiene muchas observaciones por grupo para datos no experimentales, pero cada observación dentro del grupo puede considerarse como una extracción i.i.d. de su grupo más grande (por ejemplo, tiene observaciones de muchas escuelas, pero cada grupo es un subconjunto extraído aleatoriamente de los estudiantes de su escuela), querrá incluir efectos fijos pero no necesitará SEs agrupados.

7voto

stopsatgreen Puntos 1026

Estas respuestas están bien, pero la más reciente y mejor es la proporcionada por Abadie et al. (2019) "¿Cuándo se deben ajustar los errores estándar para la agrupación?" Con los efectos fijos, una de las principales razones para la agrupación es la heterogeneidad de los efectos del tratamiento en las agrupaciones. Hay otras razones, por ejemplo, si los conglomerados (por ejemplo, empresas, países) son un subconjunto de los conglomerados de la población (sobre los que se está infiriendo). El mensaje principal del artículo es que la agrupación es una cuestión de diseño. No lo hagas a ciegas.

4voto

autodavid Puntos 55

@Kishore Gawande hizo referencia al documento de trabajo del NBER de Alberto Abadie, Susan Athey, Guido W. Imbens y Jeffrey Wooldridge, pero creo que sería útil repetir las conclusiones clave aquí, ya que (según mi lectura) no se alinean necesariamente con todos los aspectos de las respuestas más aceptadas aquí.

En primer lugar, los errores estándar agrupados son un problema de diseño más que de modelo. El hecho de que la agrupación de los errores estándar suponga una diferencia (da lugar a errores estándar mayores que los errores estándar robustos) no es razón para hacerlo. Esta es la línea superior: debe utilizar errores estándar agrupados si trabaja con una muestra agrupada o con un experimento en el que las asignaciones se han agrupado .

Hay una excepción. Si no hay heterogeneidad en los efectos del tratamiento y las asignaciones no se han agrupado, no es necesario utilizar errores estándar agrupados. Si está utilizando efectos fijos, este requisito es más flexible. Si no hay heterogeneidad en los efectos del tratamiento, no es necesario utilizar errores estándar agrupados. Sin embargo, como señalan Abadie et al., es muy poco probable que en la práctica no haya heterogeneidad en los efectos del tratamiento, por lo que esta diferencia no supone una gran diferencia en la práctica. Por lo tanto, tanto si se utilizan efectos fijos como si no, si se trabaja con una muestra agrupada o con asignaciones agrupadas, hay que utilizar errores estándar agrupados.

Citando directamente a Abadie et al:

Sin efectos fijos, se debe agrupar si (i) ambos $P_{C_n}$ < 1 (agrupación en el muestreo) y existe heterogeneidad en los efectos del tratamiento, o (ii) 2 > 0 (agrupación en la asignación). Con efectos fijos, se debe agrupar si (i) tanto PCn < 1 (agrupación en el muestreo) y hay heterogeneidad en los efectos del efectos del tratamiento, o (ii) 2 > 0 (agrupación en la asignación) y existe heterogeneidad en los efectos del tratamiento. En otras palabras la heterogeneidad en los efectos del tratamiento es ahora un requisito para que los ajustes de agrupación sean necesarios, y más allá de eso, o bien la agrupación en el muestreo o la asignación hace que los ajustes sean importantes

En su respuesta, @Alex dice que "los errores estándar agrupados sirven para tener en cuenta situaciones en las que las observaciones DENTRO de cada grupo no están i.i.d. (distribuidas de forma independiente e idéntica)" y proporciona el siguiente ejemplo:

Alternativamente, si tiene muchas observaciones por grupo para datos no experimentales, pero cada observación dentro del grupo puede de grupo puede considerarse como una extracción i.i.d. de su grupo más grande (por ejemplo, tiene observaciones de muchas escuelas, pero cada grupo es un subconjunto de estudiantes de su escuela), querrá incluir efectos fijos, pero no necesitará pero no necesitaría SEs agrupados.

Esto es engañoso. Si la muestra está agrupada y hay heterogeneidad en los efectos del tratamiento (y normalmente la hay), se necesitan errores estándar agrupados.

Para decirlo en términos de muestreo de encuestas, si el efecto del diseño es mayor que 1, es decir, las observaciones de un grupo no son independientes porque son más similares entre sí que a las observaciones de otros grupos, hay que tenerlo en cuenta. Asegurarse de que la muestra de cada grupo (por ejemplo, de la escuela) es aleatoria, no le exime de ello. El tamaño efectivo de la muestra es menor que el tamaño real de la muestra. Esto es lo que lleva a que los errores estándar sean demasiado estrechos, a menos que se ajusten (a través de errores estándar agrupados) para tenerlo en cuenta.

Para toda la letra pequeña, incluyendo simulaciones y pruebas matemáticas, véase Abadie et al. ¿Cuándo se deben ajustar los errores estándar para la agrupación? .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X