Veo un modelo de regresión que hace una regresión de los rendimientos interanuales de los índices bursátiles sobre los rendimientos interanuales rezagados (12 meses) del mismo índice bursátil, el diferencial de crédito (diferencia entre la media mensual de los bonos sin riesgo y los rendimientos de los bonos corporativos), la tasa de inflación interanual y el índice interanual de producción industrial.
Parece que es así (aunque en este caso habría que sustituir los datos específicos de la India):
SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) +
b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2)
SP500YOY es el rendimiento interanual del índice SP500 Para calcularlo, se calcula la media mensual de los valores del SP500 y luego se convierte en rendimiento interanual para cada mes (es decir, enero-10-enero-11, febrero-10-febrero-11, marzo-10-marzo-11, ). Por lo que respecta a las variables explicativas, se utiliza un valor retardado de 12 meses del SP500YOY junto con el CREDITSPREAD en el momento T y la INFLACIÓN y la PRODUCCIÓN INDUSTRIAL dos períodos antes. El INFLATIONASYMM es una variable ficticia que indica si la inflación está por encima de un valor umbral del 5,0%. El índice entre paréntesis muestra el índice temporal de cada variable.
Se estima mediante una regresión lineal OLS estándar. Para utilizar este modelo en la previsión de los rendimientos YOY del SP500 a 1, 2 y 3 meses vista, hay que generar previsiones a 3, 4 y 5 meses vista para la inflación y el índice de producción industrial. Estas previsiones se realizan tras ajustar un modelo ARIMA a cada uno de los dos por separado. Las previsiones de CreditSpread para los próximos 1, 2 y 3 meses se incluyen simplemente como estimaciones mentales.
Me gustaría saber si esta regresión lineal OLS es correcta/incorrecta, eficiente/ineficiente o una práctica estadística generalmente válida.
El primer problema que veo es el de la utilización de datos superpuestos. Es decir, los valores diarios del índice bursátil se promedian cada mes, y luego se utilizan para calcular los rendimientos anuales que se renuevan mensualmente. Esto debería hacer que el término de error esté autocorrelacionado. Creo que habría que utilizar alguna "corrección" del tipo de las siguientes:
- Estimador de covarianza consistente con la heteroscedasticidad de White
- Estimador de heteroscedasticidad y autocorrelación consistente (HAC) de Newey & West
- versión coherente con la heteroscedasticidad de Hansen y Hodrick
¿Tiene realmente sentido aplicar la regresión lineal OLS estándar (sin ninguna corrección) a estos datos superpuestos, y más aún, utilizar previsiones ARIMA de 3 periodos por delante para las variables explicativas a utilizar en la regresión lineal OLS original para la previsión del SP500YOY? No he visto antes esa forma, y por lo tanto no puedo juzgarla realmente, sin la excepción de corregir el uso de observaciones superpuestas.
0 votos
Por favor, no cross-post .
0 votos
Aquí hay un par de artículos que tratan este tema: Britten-Jones y Neuberger, Improved inference and estimation in regression with overlapping observations Harri & Brorsen, El problema del solapamiento de datos
0 votos
En estos documentos no queda muy claro cómo aplicar estas correcciones en la práctica. ¿Existe una guía más práctica o un tutorial en alguna parte?
0 votos
@rinspy Ver quant.stackexchange.com/questions/35216/ para algunos códigos de Hansen & Hodrick
0 votos
¿Puede ofrecer un resumen de la información de estos artículos y de la forma en que resuelven la cuestión?