La verdadera distinción entre los datos, es si existe, o no, una ordenación natural de los mismos que se corresponda con las estructuras del mundo real, y que sea relevante para el tema en cuestión.
Por supuesto, la "ordenación natural" más clara (e indiscutible) es la del tiempo, y de ahí la dicotomía habitual "sección transversal / serie temporal". Pero, como se señala en los comentarios, podemos tener datos que no sean de series temporales y que, sin embargo, posean un orden natural espacial ordenando. En tal caso, todos los conceptos y herramientas desarrollados en el contexto del análisis de series temporales se aplican aquí igualmente bien, ya que se supone que hay que darse cuenta de que existe un ordenamiento espacial significativo, y no sólo preservarlo, sino también examinar lo que puede implicar para la serie del término de error, entre otras cosas relacionadas con todo el modelo (como la existencia de una tendencia, que haría que los datos no fueran estacionarios, por ejemplo).
Para un ejemplo (burdo), suponga que recoge datos sobre el número de coches que se han detenido en varios establecimientos de parada a lo largo de una autopista, en un día concreto (esa es la variable dependiente). Sus regresores miden las diversas instalaciones/servicios que ofrece cada parada, y quizás otros aspectos como la distancia a las salidas/entradas de la autopista. Estos establecimientos están naturalmente ordenados a lo largo de la autopista...
Pero, ¿importa esto? ¿Debemos mantener el orden, e incluso preguntarnos si el término de error está autocorrelacionado? Ciertamente Supongamos que algunas instalaciones/servicios del establecimiento nº 1 no funcionan en realidad durante ese día en particular (este evento sería captado por el término de error). Sin embargo, los coches que quieran utilizar estas instalaciones/servicios se detendrán porque no conocen el problema. Pero se enterarán del problema, y así, a causa del problema También se detendrán en el siguiente establecimiento, nº 2, donde, si se ofrece lo que quieren, recibirán los servicios y no se detendrán en el establecimiento nº 3 - pero existe la posibilidad de que el establecimiento nº 2 les parezca caro, por lo que, después de todo, probarán también el establecimiento nº 3: Esto significa que las variables dependientes de los tres establecimientos pueden no ser independientes, lo que equivale a decir que existe la posibilidad de correlación de los tres términos de error correspondientes, y no "por igual", pero en función de sus respectivas posiciones.
Por lo tanto, hay que preservar el orden espacial y realizar pruebas de autocorrelación, que serán significativas.
Si, por el contrario, no parece existir esa ordenación "natural" y significativa para un conjunto de datos específico, la posible correlación entre las observaciones no debe designarse como "autocorrelación" porque sería engañosa, y las herramientas específicamente desarrolladas para los datos ordenados son inaplicables. Pero la correlación puede existir perfectamente, aunque en ese caso es bastante más difícil detectarla y estimarla.
2 votos
Has dicho correctamente que sin un componente temporal tus residuos no pueden estar correlacionados serialmente. Así que una prueba de correlación serial en este caso no es válida. Las preocupaciones más comunes en los datos de sección cruzada son la heteroscedasticidad o la correlación espacial (por ejemplo, la tasa de criminalidad en la ciudad A afecta a la tasa de criminalidad en la ciudad B), pero ambas se corrigen fácilmente con las opciones robustas y de cluster en Stata.
0 votos
Intentemos reformular esto sin utilizar los términos correlación serial o autocorrelación. La variable dependiente de un modelo de regresión tiene una matriz de varianza condicional, es decir, condicionada a las variables independientes. Esperamos que los elementos diagonales de la matriz, es decir, las varianzas condicionales de los elementos de y, sean distintos de cero. Si el modelo es transversal, ¿podemos deducir que los elementos no diagonales, es decir, las covarianzas de los pares de elementos de y, deben ser cero? Seguramente la falta de una interpretación de las series temporales no elimina esta posibilidad, aunque puede hacerla menos probable.
0 votos
... Un ejemplo, como sugiere Andy, sería la covarianza entre elementos relacionados espacialmente. Un posible ejemplo no espacial es cuando la variable dependiente es el PNB en diferentes países (al mismo tiempo), donde dos países muy alejados podrían tener estrechos vínculos comerciales (por ejemplo, por razones históricas) dando lugar a una covarianza no nula.
0 votos
Cuando los datos tienen conglomerados, la dependencia transversal es posible. Puede ajustar la E.S. como sugirió @Andy. Una observación sobre la S.E. robusta de los clusters es que la S.E. robusta funciona si cada cluster en los datos es pequeño y hay muchos clusters observados. Sin embargo, si se tienen unos pocos conglomerados grandes, la E.S. robusta a los conglomerados no es válida. De hecho, en el caso de conglomerados grandes, el MCO agrupado podría ser inconsistente. Puede consultar Andrews (2005, Econometrica) como referencia.