7 votos

Previsión de la tasa de desempleo

Tengo un conjunto de datos de 100 regiones geográficas para las que se ha observado la tasa de desempleo durante los últimos 9 años. Ahora, quiero simular/predecir a partir de estos datos la tasa de desempleo del próximo año para todas las 100 regiones. ¿Cuál sería un enfoque adecuado? Estaba pensando en utilizar un modelo autorregresivo de efectos mixtos, pero me temo que no tengo suficientes datos...

Saludos

6voto

Patrick Puntos 183

El estimador Arellano-Bond ha sido diseñado precisamente para este tipo de problemas. Encontrará un breve documento no técnico con ejemplos aquí . En pocas palabras, combina la información contenida en el gran número de secciones transversales para compensar el pequeño número de puntos de cada serie. Este estimador es ampliamente utilizado e implementado: está disponible en la versión por defecto de gretl paquete pero también en stata a través del XTABOND2 y también en R, a través del paquete plm paquete (debería encontrar fácilmente un gran número de papeles que lo utilicen).

EDITAR:

Dado que la correlación espacial puede ser efectivamente informativa (véase el post de Andy), aconsejaría añadir una variable:

$s_{it} = u_{it} - \bar{u}_{-it}$

donde $u_{it}$ es (eventualmente el $\log()$ de) la tasa de desempleo de la región $i$ en el momento $t$ y $\bar{u}_{-it}$ su valor medio entre $k$ vecinos geográficos de la región $i$ (excluyendo la región $i$ ). Aconsejaría probar diferentes valores de $k$ hasta que se produzcan pequeños cambios en $k$ no afectan al resultado final/conclusiones de la estimación. Entonces, para una estimación eficiente y coherente de $\beta_s$ (el coeficiente asociado a la variable $s$ ) utilizaría OLS para el efecto principal y permitiría un componente aleatorio en los términos de error para tener en cuenta la heterogeneidad interregional en $\beta_s$ aprovechando así el hecho de que el paquete plm de R permite combinar los coeficientes de gmm (es decir, Arellano-Bond) y de efectos aleatorios.

Con respecto al comentario de Andy W: podría leer estos dos documentos para un resumen no técnico. La versión completa en papel es aquí . Obsérvese la dependencia de ambos un gran número de secciones transversales y dimensiones temporales.

PD: Gracias @Srikant. Creo que ahora lo entiendo :)

2voto

Judioo Puntos 625

Dada la naturaleza de sus datos, le sugiero que investigue el uso de alisamiento exponencial así como el ajuste de modelos de tipo ARIMA, especialmente debido a las restricciones temporales de sus datos. Aunque no dudo de que existan dependencias espaciales, sería un poco escéptico sobre su utilidad en la previsión (en lo que imagino que son áreas bastante grandes), especialmente porque cualquier dependencia espacial probablemente ya será capturada (al menos hasta cierto punto) en las observaciones anteriores de la serie.

Las dependencias espaciales pueden ser útiles si tiene problemas de estimación en áreas pequeñas, y puede utilizar la dependencia espacial en sus datos para ayudar a suavizar sus estimaciones en esas regiones geográficas ruidosas. Sin embargo, esto puede no ser un problema, ya que tiene datos agregados para un año completo.

Sin embargo, no debería confiar en mi palabra y debería investigar la literatura económica sobre el tema y evaluar por sí mismo varios métodos de previsión. Es muy posible que otras variables sean útiles para predecir el desempleo futuro en paneles similares.

Editar:

En primer lugar, me gustaría aclarar que no me refería a que el PO debiera simplemente preferir algún tipo de suavizado exponencial sobre otras técnicas. Creo que el PO debería evaluar el rendimiento de varios métodos de previsión utilizando una muestra de 1 o 2 períodos de tiempo. No conozco la bibliografía sobre la previsión del desempleo, pero no he visto ningún método que sea tan obviamente superior como para descartar los demás en cualquier contexto.

Kwak menciona un punto clave que no tuve en cuenta inicialmente (y el comentario de Stephan también hace lo mismo de forma muy sucinta). El carácter de panel de los datos permite estimar un componente autorregresivo en el modelo mucho más fácilmente que en una serie temporal única. Así que yo seguiría su sugerencia y consideraría que el estimador A/B es una buena apuesta para proporcionar la mejor precisión de previsión.

Sin embargo, sigo manteniendo mi sugerencia inicial de que soy escéptico en cuanto a la utilidad de la dependencia espacial, y que se debería evaluar la precisión predictiva de un modelo con y sin el componente espacial. En términos de predicción, no se trata simplemente de si existe algún tipo de autocorrelación espacial, sino de si esa autocorrelación espacial es útil para predecir valores futuros independientemente de las observaciones pasadas de la serie.

Para simplificar mi razonamiento, vamos a denotar

$R_{t}$ corresponde a una región geográfica $R$ en el momento $t$

$R_{t-1}$ corresponde a una región geográfica $R$ en el período anterior

$W_{t-1}$ corresponde a como se quiera definir la relación espacial para los vecinos de $R_{t}$ en el período anterior

En este caso $R$ es algún atributo y $W$ es ese mismo atributo en los vecinos de $R$ (es decir, un desfase espacial endógeno).

En casi todos los casos de datos areales de la red, tenemos una relación entre $R$ y $W$ . Dos explicaciones generales de esta relación son

1) La teoría general del proceso social

Esto ocurre cuando hay procesos que afectan a $R$ y $W$ simultáneamente que dan lugar a valores similares con algún tipo de organización espacial. El soporte de los datos no distingue entre las fuerzas que dan forma a los atributos en un ámbito más amplio que el que abarcan las unidades areales. (Imagino que hay un nombre mejor para esto, así que si alguien puede ayudarme).

2) La teoría de las externalidades espaciales

Esto ocurre cuando algún atributo de $W$ afecta directamente a un atributo de $R$ . El ejemplo de Srikant sobre la difusión del empleo es un ejemplo de ello.

En el contexto de la previsión, el modelo de proceso social general puede no ser tan útil en la previsión. En este caso, $R_{t-1}$ y $W_{t-1}$ son el reflejo de los mismos choques externos, por lo que $W_{t-1}$ es menos probable que tenga un poder exógeno para predecir $R_{t}$ independiente de $R_{t-1}$ .

OMI el caso de las externalidades espaciales esperaría $W_{t-1}$ para tener un mayor potencial de previsión $R_{t}$ independiente de $R_{t-1}$ a corto plazo porque $R_{t-1}$ y $W_{t-1}$ puede ser el reflejo de diferentes choques externos al sistema. Sin embargo, esta es mi opinión y normalmente no se puede distinguir entre el modelo de proceso social general y el modelo de externalidades espaciales a través de medios empíricos en un diseño transversal (probablemente ambos se den en cierta medida en muchos contextos). Por ello, yo intentaría validar su utilidad antes de incorporarlo sin más a la previsión. Un mejor conocimiento de la literatura y de los procesos sociales sería definitivamente útil aquí para guiar la construcción de su modelo. En criminología, el modelo de externalidades sólo tiene sentido en un conjunto muy limitado de circunstancias (pero imagino que es más probable en los datos de economía). Los modelos de precios hedónicos espaciales de la vivienda a menudo muestran efectos espaciales muy fuertes, y en ese contexto yo esperaría que el componente espacial tuviera una gran capacidad para predecir los precios de la vivienda. (Me gusta más la explicación de Luc Anselin sobre estos dos procesos diferentes que la mía en este papel, PDF aquí )

A menudo, la forma en que definimos $W$ es un problema más en este escenario. La mayoría de las concepciones de $W$ son muy simplistas y probablemente no reflejan del todo los procesos geográficos reales. En este sentido, la sugerencia de Kwaks de añadir un componente aleatorio al $W$ efecto para cada $R$ tiene mucho sentido. Un ejemplo sería que esperáramos que la ciudad de Nueva York influyera en sus vecinos, pero no esperaríamos que los vecinos de la ciudad de Nueva York tuvieran tanta influencia en la ciudad de Nueva York. Esto sigue sin resolver cómo decidir qué es un vecino o cómo representar mejor los efectos de los vecinos. Lo que kwak sugiere es esencialmente una versión local de la C de Geary (diferencias espaciales), la I de Moran local (promedios espaciales) es un enfoque común también.

Me siguen sorprendiendo las respuestas negativas a mi sugerencia de utilizar métodos de suavización más sencillos (aunque estén pensados para series temporales univariantes). ¿Soy ingenuo al pensar que el suavizado exponencial o algún otro tipo de técnica de ventana móvil no funcionará al menos lo suficientemente bien como para evaluar procedimientos más complicados? Me preocuparía más si las series fueran tales que esperáramos componentes estacionales, pero ese no es el caso aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X