@Kishore Gawande hizo referencia al documento de trabajo del NBER de Alberto Abadie, Susan Athey, Guido W. Imbens y Jeffrey Wooldridge, pero creo que sería útil repetir las conclusiones clave aquí, ya que (según mi lectura) no se alinean necesariamente con todos los aspectos de las respuestas más aceptadas aquí.
En primer lugar, los errores estándar agrupados son un problema de diseño más que de modelo. El hecho de que la agrupación de los errores estándar suponga una diferencia (da lugar a errores estándar mayores que los errores estándar robustos) no es razón para hacerlo. Esta es la línea superior: debe utilizar errores estándar agrupados si trabaja con una muestra agrupada o con un experimento en el que las asignaciones se han agrupado .
Hay una excepción. Si no hay heterogeneidad en los efectos del tratamiento y las asignaciones no se han agrupado, no es necesario utilizar errores estándar agrupados. Si está utilizando efectos fijos, este requisito es más flexible. Si no hay heterogeneidad en los efectos del tratamiento, no es necesario utilizar errores estándar agrupados. Sin embargo, como señalan Abadie et al., es muy poco probable que en la práctica no haya heterogeneidad en los efectos del tratamiento, por lo que esta diferencia no supone una gran diferencia en la práctica. Por lo tanto, tanto si se utilizan efectos fijos como si no, si se trabaja con una muestra agrupada o con asignaciones agrupadas, hay que utilizar errores estándar agrupados.
Citando directamente a Abadie et al:
Sin efectos fijos, se debe agrupar si (i) ambos $P_{C_n}$ < 1 (agrupación en el muestreo) y existe heterogeneidad en los efectos del tratamiento, o (ii) 2 > 0 (agrupación en la asignación). Con efectos fijos, se debe agrupar si (i) tanto PCn < 1 (agrupación en el muestreo) y hay heterogeneidad en los efectos del efectos del tratamiento, o (ii) 2 > 0 (agrupación en la asignación) y existe heterogeneidad en los efectos del tratamiento. En otras palabras la heterogeneidad en los efectos del tratamiento es ahora un requisito para que los ajustes de agrupación sean necesarios, y más allá de eso, o bien la agrupación en el muestreo o la asignación hace que los ajustes sean importantes
En su respuesta, @Alex dice que "los errores estándar agrupados sirven para tener en cuenta situaciones en las que las observaciones DENTRO de cada grupo no están i.i.d. (distribuidas de forma independiente e idéntica)" y proporciona el siguiente ejemplo:
Alternativamente, si tiene muchas observaciones por grupo para datos no experimentales, pero cada observación dentro del grupo puede de grupo puede considerarse como una extracción i.i.d. de su grupo más grande (por ejemplo, tiene observaciones de muchas escuelas, pero cada grupo es un subconjunto de estudiantes de su escuela), querrá incluir efectos fijos, pero no necesitará pero no necesitaría SEs agrupados.
Esto es engañoso. Si la muestra está agrupada y hay heterogeneidad en los efectos del tratamiento (y normalmente la hay), se necesitan errores estándar agrupados.
Para decirlo en términos de muestreo de encuestas, si el efecto del diseño es mayor que 1, es decir, las observaciones de un grupo no son independientes porque son más similares entre sí que a las observaciones de otros grupos, hay que tenerlo en cuenta. Asegurarse de que la muestra de cada grupo (por ejemplo, de la escuela) es aleatoria, no le exime de ello. El tamaño efectivo de la muestra es menor que el tamaño real de la muestra. Esto es lo que lleva a que los errores estándar sean demasiado estrechos, a menos que se ajusten (a través de errores estándar agrupados) para tenerlo en cuenta.
Para toda la letra pequeña, incluyendo simulaciones y pruebas matemáticas, véase Abadie et al. ¿Cuándo se deben ajustar los errores estándar para la agrupación? .