4 votos

Predicción de series temporales basadas en un comportamiento de otra.

Pedimos disculpas por esta vaga y confusa la pregunta, yo no tengo de fondo en las estadísticas.

Tengo dos vectores de datos de series de tiempo, que abarca un período de seis meses. Los datos en intervalos diarios (excepto fines de semana).

El primer vector contiene el stock de volumen para una empresa en cada uno de los días. El segundo vector contiene un volumen externo de la variable (el número de búsquedas de Google) tomadas en la misma fecha.

Figure

Como visible en la gráfica de arriba, (que está fuera de escala, etc.) hay algún tipo de relación entre los dos.

Quiero el modelo de las dos series de tiempo como para predecir el futuro de la población de los valores de volumen.

Hasta ahora he miró brevemente en:

  • máquinas de vectores soporte para regresión: pero cuando he trazado los datos en un diagrama de dispersión que no hay una relación clara, así que esto me hizo pensar que la SVM enfoque sería un fracaso.

  • análisis de series de tiempo: este enfoque que me confunde, porque no hay ningún evidente que las tendencias en los datos

¿Alguien puede ofrecer ningún consejo en lo que me enfoque que debo tomar?

12voto

jldugger Puntos 7490

Usted puede aprender mucho por explorar las relaciones temporales entre los datos antes de salir a métodos más sofisticados de análisis de series de tiempo.

Debido a que la imagen no proporciona una escala horizontal, yo he usado uno artificial (coordenadas de píxel de la imagen de las columnas). He libremente ajustaron las dos parcelas y se coloca a la actividad en cero, que es probable que lo mínimo es:

Data

(Hay un pequeño problema en los dos gráficos que originalmente se superponen, pero que no afectan el análisis).

Porque estás buscando un potencial efecto causal de la actividad (rojo) en volumen (azul), parcela adelante la función de correlación cruzada. Esto simplemente se calcula la correlación de la actividad[1..n+1-k] y el volumen[k..n] como una función de k (el "lag"). Mi primer paso en este, como sería de esperar-que la extrema pico de actividad tiene una gran capacidad de influencia, así que me fui de nuevo y se utiliza el logaritmo de 1+actividad en su lugar. Aquí está la correlación cruzada:

Cross-correlation plot

Alcanza un pico definido en un intervalo de k=20. (El pico de uso de las no transformadas actividades se en k=18, es esencialmente el mismo.) Para ver mejor lo que está pasando, mire el diagrama de dispersión de la actividad[1..n+1-20] en contra de volumen[20..n]:

Scatterplot at lag 20

Es decir, cada registro de la actividad valor de (x) se traza contra el volumen después de 20 unidades de tiempo transcurrido (y). (Los puntos son de color según la hora. Esto es realmente un gráfico 3D con el tiempo como la coordenada z, miró de arriba. 3D manipulaciones hacer los patrones más claro.)

Este diagrama de dispersión hace evidente que la relativamente alta correlación en este lag (alrededor de 0.40 de acuerdo a la anterior parcela) se debe enteramente a el pico de la actividad en el momento de 220 ser seguido por el volumen de pico en el momento de 220+20 (seguido por una caída de poco a partir de entonces). Todo lo demás se parece al azar errante. Esto nos dice que no puede ser menos que salta a la vista: la aparición de una relación temporal entre estas dos series es causada por un solo evento y sus consecuencias; no parece ser una asociación general.

En efecto, puede que tenga una observación de una alta actividad, seguido después de un cierto tiempo corto por un aumento en el volumen. Era esto una coincidencia o (esperemos) la evidencia de un patrón? Es imposible decir. Datos adicionales pudiera llevar a cabo esta generalización o puede falsificar. Independientemente, de la cruz-gráficos de correlación y rezagados diagramas de dispersión son de gran alcance y herramientas útiles para evaluar las relaciones.

1voto

Gaurav Puntos 143

¿Qué quieres hacer : - Hacer pronósticos de cada uno de el tiempo de la serie de forma independiente? - Hacer la previsión de una serie de tiempo y, a continuación, determinar los valores de la otra?

En cualquier caso, esta referencia le ayudará mucho : http://www.sciencedirect.com/science/article/pii/S0169207006000021

¿Cuál es la longitud de la serie de tiempo (es decir cuánto de datos ¿tienes)? ¿Cuál es el horizonte de previsión (significado quieres hacer 1 día, 1 mes o 1 año de antelación a la predicción)?

Mirando los datos, yo diría que no hay ninguna tendencia evidente a la estacionalidad, a mirar a un tiempo más largo de la serie, sería de ayuda para estar seguro, a ver si hay alguna estacionalidad y tendencia de la parcela, la función de autocorrelación (usted puede encontrar gran cantidad de cosas acerca de ella).

Para ambas series de tiempo, se ven como una caminata aleatoria, excepto tal vez para el pico, que dependen de lo que se desea modelar. Si usted está interesado de la modelación de la cantidad correcta de pico en sus datos, sin ser precisa sobre el valor de las otras entre el pico, el uso de un proceso de recuento (proceso de poisson) o tal vez un modelo de umbral. Si usted desea modelar el valor de las otras, entonces el modelo autorregresivo podría ser una solución.

Usted puede utilizar el análisis de series de tiempo, incluso si no hay ninguna tendencia en los datos. La Máquina de soporte Vectorial son tal vez un poco demasiado complejo para el tipo de serie de tiempo que tiene, pero podría ser un interesante profundizar en ella, si usted tiene tiempo para dedicarle.

1voto

sztanpet Puntos 179

Estás tratando de predecir lo futuro, de volumen? Es este un impacto en el mercado modelo o algo?

Si usted está tratando de predecir el volumen, el análisis de series de tiempo es probable que su amigo. Esto sería básicamente la ejecución de un modelo autorregresivo, es decir, una regresión lineal donde la $x_{ij}$ son los cambios en volumen ($j=0$) y de las búsquedas de Google ($j=1$) y el $y_i$ son los cambios futuros.

Como para SVMs, una ordinaria lineal SVM puede no ser la mejor apuesta; retirar del núcleo SVMs, que transforman los datos en formas diferentes para dilucidar las relaciones que de otra manera no serían linealmente separables. Esto podría ser útil para lidiar con la falta de linealidad en los datos, lo que sin duda se producen en financiera conjuntos de datos.

Si usted está realmente la intención de predecir el futuro cambio de precio, el KSVMs probablemente el camino a seguir, ya que la predicción de los rendimientos es muy difícil y me imagino que muchos de los aspectos más útiles de los datos involucrar a los valores extremos, es decir, las no linealidades.

Si usted está realmente en la predicción de volumen/impacto de mercado/deslizamiento, análisis de series de tiempo es el más estándar camino a seguir.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X