11 votos

Si ejecuta una regresión OLS sobre datos transversales, ¿debe comprobar la autocorrelación en los residuos?

Tengo un conjunto de observaciones, independientes del tiempo. Me pregunto si debo realizar alguna prueba de autocorrelación. Me parece que no tiene sentido, ya que no hay ningún componente temporal en mis datos. Sin embargo, he probado la prueba LM de correlación en serie, y ésta indica una fuerte autocorrelación de los residuos. ¿Tiene algún sentido? Lo que estoy pensando es que puedo reorganizar las observaciones en mi conjunto de datos en cualquier orden posible, y esto cambiaría la autocorrelación en los residuos. Así que la pregunta es: ¿debería preocuparme por la autocorrelación en este caso? ¿Y debería usar Newey-West para ajustar el SE en caso de que la prueba lo indique? Gracias.

2 votos

Has dicho correctamente que sin un componente temporal tus residuos no pueden estar correlacionados serialmente. Así que una prueba de correlación serial en este caso no es válida. Las preocupaciones más comunes en los datos de sección cruzada son la heteroscedasticidad o la correlación espacial (por ejemplo, la tasa de criminalidad en la ciudad A afecta a la tasa de criminalidad en la ciudad B), pero ambas se corrigen fácilmente con las opciones robustas y de cluster en Stata.

0 votos

Intentemos reformular esto sin utilizar los términos correlación serial o autocorrelación. La variable dependiente de un modelo de regresión tiene una matriz de varianza condicional, es decir, condicionada a las variables independientes. Esperamos que los elementos diagonales de la matriz, es decir, las varianzas condicionales de los elementos de y, sean distintos de cero. Si el modelo es transversal, ¿podemos deducir que los elementos no diagonales, es decir, las covarianzas de los pares de elementos de y, deben ser cero? Seguramente la falta de una interpretación de las series temporales no elimina esta posibilidad, aunque puede hacerla menos probable.

0 votos

... Un ejemplo, como sugiere Andy, sería la covarianza entre elementos relacionados espacialmente. Un posible ejemplo no espacial es cuando la variable dependiente es el PNB en diferentes países (al mismo tiempo), donde dos países muy alejados podrían tener estrechos vínculos comerciales (por ejemplo, por razones históricas) dando lugar a una covarianza no nula.

16voto

Jeff Bauer Puntos 236

La verdadera distinción entre los datos, es si existe, o no, una ordenación natural de los mismos que se corresponda con las estructuras del mundo real, y que sea relevante para el tema en cuestión.

Por supuesto, la "ordenación natural" más clara (e indiscutible) es la del tiempo, y de ahí la dicotomía habitual "sección transversal / serie temporal". Pero, como se señala en los comentarios, podemos tener datos que no sean de series temporales y que, sin embargo, posean un orden natural espacial ordenando. En tal caso, todos los conceptos y herramientas desarrollados en el contexto del análisis de series temporales se aplican aquí igualmente bien, ya que se supone que hay que darse cuenta de que existe un ordenamiento espacial significativo, y no sólo preservarlo, sino también examinar lo que puede implicar para la serie del término de error, entre otras cosas relacionadas con todo el modelo (como la existencia de una tendencia, que haría que los datos no fueran estacionarios, por ejemplo).

Para un ejemplo (burdo), suponga que recoge datos sobre el número de coches que se han detenido en varios establecimientos de parada a lo largo de una autopista, en un día concreto (esa es la variable dependiente). Sus regresores miden las diversas instalaciones/servicios que ofrece cada parada, y quizás otros aspectos como la distancia a las salidas/entradas de la autopista. Estos establecimientos están naturalmente ordenados a lo largo de la autopista...

Pero, ¿importa esto? ¿Debemos mantener el orden, e incluso preguntarnos si el término de error está autocorrelacionado? Ciertamente Supongamos que algunas instalaciones/servicios del establecimiento nº 1 no funcionan en realidad durante ese día en particular (este evento sería captado por el término de error). Sin embargo, los coches que quieran utilizar estas instalaciones/servicios se detendrán porque no conocen el problema. Pero se enterarán del problema, y así, a causa del problema También se detendrán en el siguiente establecimiento, nº 2, donde, si se ofrece lo que quieren, recibirán los servicios y no se detendrán en el establecimiento nº 3 - pero existe la posibilidad de que el establecimiento nº 2 les parezca caro, por lo que, después de todo, probarán también el establecimiento nº 3: Esto significa que las variables dependientes de los tres establecimientos pueden no ser independientes, lo que equivale a decir que existe la posibilidad de correlación de los tres términos de error correspondientes, y no "por igual", pero en función de sus respectivas posiciones.

Por lo tanto, hay que preservar el orden espacial y realizar pruebas de autocorrelación, que serán significativas.

Si, por el contrario, no parece existir esa ordenación "natural" y significativa para un conjunto de datos específico, la posible correlación entre las observaciones no debe designarse como "autocorrelación" porque sería engañosa, y las herramientas específicamente desarrolladas para los datos ordenados son inaplicables. Pero la correlación puede existir perfectamente, aunque en ese caso es bastante más difícil detectarla y estimarla.

0voto

Sólo añadir otro ejemplo (mucho más común) en el que probablemente se encuentre autocorrelación en los datos transversales, y es cuando se tienen grupos de observaciones. Por ejemplo, si tiene las puntuaciones de matemáticas de un examen estandarizado de mil niños, pero estos niños proceden de 100 escuelas diferentes, sería apropiado pensar que las observaciones no son independientes, ya que el rendimiento general de matemáticas de la escuela podría estar relacionado con el rendimiento individual de los estudiantes.

En este caso, si omite el término de identificación de la escuela en su modelo, estará omitiendo una variable relevante, que podría sesgar sus estimaciones. Además, si se observa una diferencia relevante en la distribución de las puntuaciones de matemáticas aparte de la media (varianza, asimetría y curtosis), probablemente debería considerar el uso de errores robustos en sus modelos (o agrupar los errores a nivel de escuela). Esto no cambiará sus coeficientes, pero podría cambiar drásticamente las estadísticas de la prueba t y la prueba f de su modelo, ya que ahora está teniendo en cuenta posibles violaciones del cuarto supuesto de MCO (varianza constante).

En resumen, si tienes grupos en tus datos transversales, y es plausible que estos grupos importen, por lo tanto también es plausible que las observaciones no sean independientes. Por lo tanto, debería controlar por grupo (mediante un modelo de efectos fijos por grupo, por ejemplo) y utilizar errores robustos a nivel de grupo, para tener mucha más confianza tanto en sus coeficientes como en sus valores p.

0 votos

Hola Guibor, gran respuesta, ¿podrías aclarar para un novato, por qué omitir la identificación de la escuela podría sesgar las estimaciones? ¿Quieres decir que el modelo que utiliza la identificación de la escuela podría estimar mejor la puntuación? Gracias.

0 votos

Claro, es básicamente porque cuando se añade una variable ficticia para cada identificación de escuela (lo que se llama "modelo de efectos fijos"), se controlan todos los factores no observables que varían a través del nivel de la escuela, que podrían estar correlacionados con sus otras variables observables. Es una forma de evitar el "sesgo de la variable omitida" y de mantener uno de los supuestos del modelo OLS, que establece que el vector de variables independientes no debe estar correlacionado con el término de error [Cov(e,X') = 0].

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X