3 votos

Pronóstico de regresión múltiple

Hice un modelo basado en aproximadamente el 75% del conjunto de datos (en la muestra). Luego apliqué el estimador del modelo en los valores restantes del conjunto de datos. La regresión tenía aproximadamente un 40% de adj R^2.

Google te permite descargar un intervalo de 90 días de datos diarios, los cuales deben ser fusionados con los SVIs semanales para tener la misma escala. Creo que esta es la razón por la cual mi predicción es tan irregular en comparación con los valores reales.

¿Alguna sugerencia sobre cómo mitigar esto?

Predicción: Azul = Actual, Naranja = Pronóstico Predicción: Azul = Actual, Naranja = Pronóstico

0voto

Owen Fraser-Green Puntos 642

Tienes datos de series temporales que no es lo mismo que datos transversales, ya que puede haber tendencias, cambios de nivel, respuestas dinámicas a causales, etc. OLS (regresión simple) no incorpora memoria a menos que introduzcas rezagos apropiados en tus variables. Los métodos de series temporales identifican la estructura de rezagos apropiada/requerida y anomalías. Tu herramienta de elección está carente... ¿por qué no publicas los datos semanales de ambas series en un archivo csv y mostraré el arte de lo posible? Las líneas de predicción a menudo nunca son tan suaves como los valores reales (¡pero pueden serlo!) pero tu línea de predicción parece sesgada sugiriendo posiblemente análisis inferiores. Los análisis que son gratuitos a menudo vienen con un precio posterior.

Por favor, sé específico acerca de tu "conjunto de datos de entrenamiento" y tu región de pronóstico, incluyendo cualquier especificación de valores futuros para la serie predictora.

La salida de Google también ayudaría a explicar sus posibles deficiencias analíticas.

EDITADO DESPUÉS DE RECIBIR LOS DATOS :

Me resulta incongruente que GOOGLE aplicaría un modelo OLS de 2 variables en datos de series temporales. Los modelos OLS asumen (por especificación) que no se necesitan rezagos en una serie predictora para capturar la relación entre las dos series observadas. Además, no hay anomalías no tratadas es decir, valores inusuales en ninguna de las dos series. Además, se asume que ninguna serie ha sido afectada por un evento exógeno individual (por ejemplo, un cambio de nivel) o que ambas series han sido afectadas de manera similar. Además, se asume que los errores del modelo tienen una varianza constante. Además, se asume que los parámetros del modelo son invariantes en el tiempo. Sugiero tomar el análisis gratuito de GOOGLE con mucha cautela.

Ahora, la mala noticia es que tus datos tienen días faltantes (días festivos y similares). Los métodos de series temporales (ARMAX) incluyendo variables causales requieren un contabilidad completa. Ahora podrías considerar tu serie como una serie de datos de 5 días por semana CON valores de días festivos a ser interpolados. La serie de 5 días por semana puede tener efectos de día de la semana que deben ser considerados para obtener una buena lectura sobre la respuesta de Y a X. Este efecto de día de la semana puede ser determinístico o estocástico (adaptativo). Si deseas publicar dos columnas de datos de 5 días de la semana, veré qué puedo hacer para aportar claridad a tu análisis.

0 votos

¡Gracias, IrishStat! He editado mi respuesta y aquí tienes un enlace a los datos. dropbox.com/s/wnu1u1n22uiopof/Data.csv?dl=0

0 votos

Traté de leer tu archivo PERO no pude entender nada ... por favor solo publica 2 columnas de datos. Una para X y otra para Y. Si tienes valores futuros para X, por favor inclúyelos

0 votos

Es una regresión múltiple. Y = índice S&P 500. X = Resto. Por favor, consulte mi edición en la publicación original para obtener una explicación de los valores futuros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X