5 votos

Computación en la correlación entre las series de tiempo con datos faltantes.

Supongamos que se tienen dos simples Ar[1] de la serie de la forma $y_n=y_{n-1}+e_n$ $x_n=x_{n-1}+m_n$ donde $e_n$ $m_n$ son normales ruido blanco en los procesos de no auto-correlación y $Corr(e_n,m_n)=p$. A continuación, supongamos que tenemos, posiblemente, no la superposición de los datos de y y X (es decir, de observación de 10 existe para Y pero no en X), y para evitar que los datos de generación de problemas en el proceso, se asume que la distribución de los datos faltantes es aleatorio.

Es allí cualquier manera de estimar p?

Como una pregunta de seguimiento, hay una manera fácil de generalizar a una situación en la $y_n$ $x_n$ son observados con conocidos normalmente distribuida error de medición?

6voto

AudioDan Puntos 168

¿has probado algún tipo de datos de aumento de enfoque, ya que es muy fácil simular los datos que faltan (falta de datos ~ puente Browniano): usted puede fácilmente estudio de la distribución posterior de los $p$ a través de la MCMC simulaciones (muestreador de Gibbs en este caso), o si usted está interesado en la estimación de máxima verosimilitud, el algoritmo EM parece funcionar. Por cierto, el tamaño de los datos ?

Un buen artículo acerca de la aumentación de datos.

4voto

Barry Wark Puntos 73462

Tengo una gran serie con cerca de 280 puntos de datos con solo un par de observaciones ausentes. Luego tengo un par de series que me quiere correlacionar con lo que son mucho más escasos, algo así como el 30% -60% de datos faltantes. Básicamente corresponde a la correlación de una tendencia nacional con las tendencias en los distintos estados.

Tu idea suena bastante sencillo, pero me pregunto cómo se puede generalizar si mis observaciones están sujetas a errores de muestreo.

Un crudo enfoque sería por separado ejecutar todos los de la serie a través de un filtro de kalman y luego interpolar los puntos faltantes con un puente browniano, a continuación, estimar p con un muestreador de gibbs como usted sugiere. Pero me siento como si existe una correlación $p$, entonces necesito conjuntamente filtro de las dos series juntos con el fin de obtener una estimación precisa.

3voto

Peter Puntos 1681

La ponencia "Aplicación de un modelo Bidireccional Modelos de Serie de Tiempo para Reemplazar los Datos que Faltan" ofrece dos métodos (no necesariamente en virtud de su modelo preciso), que minimiza "el promedio de error asociado con la falta de valor" (el otro yo no puedo entender, desde lo abstracto).

Edit. He cambiado mi (edad) respuesta a la wiki de la comunidad. Podría alguien por favor votos para que el bot que reposts esas preguntas para las que no hay upvoted respuestas deja de reciclaje de esta? Gracias.

0voto

AudioDan Puntos 168

sí, el enfoque usual es utilizar el filtro de Kalman + algoritmo EM. Pero ser conscientes de que no son conocidos los problemas de inestabilidad: básicamente, el filtro de Kalman funciona muy bien si usted sabe que su modelo es adecuado (por ejemplo:para el seguimiento de satélites, las leyes de Newton son correctos, y agregar un poco de ruido observaciones -> Kalman funciona bastante bien). Sin embargo, cuando intenta modelo de serie de tiempo (financiera, económica, etc..) con un modelo simple+ desconocido modelo de parámetros + ruidoso observaciones, filtro de Kalman da buenos resultados. Recuerdo haber intentado un acercamiento con el financial times de la serie (PIB, tasas de FX, etc...), y hemos tenido un tiempo difícil tratando de estabilizar el algoritmo. Usted puede tener una oportunidad con métodos MCMC, pero que puede ser bastante lento.

0voto

Schof Puntos 859

Estás en lo correcto. Un idependent filtrado de las dos señales se introducen errores porque no es contrained para corregir la correlación con el p. Un enfoque posible es realizar un unificada de estimación de máxima verosimilitud, tanto de la falta de muestras y la correlación p. Esto se puede hacer de la siguiente manera: Suponiendo que los procesos m_n y e_n tienen la misma varianza, por lo tanto podemos escribir:

m_n = p * e_n + q * f_n, p^2 + q^2 = 1,

donde f_n es normal el ruido blanco no correlacionados a e_n y tiene la misma varianza como e_n.

El registro de la función de probabilidad es proporcional a:

sum_n((x_n - sum_i=1 a n(e_n))^2) + sum_n((y_n - sum_i=1 a n(p * e_n + q * f_n))^2) + lambda (p^2 + q^2 -1)

donde lambda es un multiplicador de Lagrange, y el exterior de las sumas que se de curso a través de la conocida sólo muestras.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X