6 votos

Predicción de series de tiempo con los no-constante intervalo de muestreo

Tengo algunos datos que pueden ser modelados como tal: cada uno de los datos de la muestra $S$ es una serie de discretos de la señal de los valores de $S(t_n) \in \{-1, 1\}$ medido en tiempos de $(t_{n, S})_{1 \leq n \leq N_S}$. El número de dimensiones de la señal $N_S$ de la muestra y los tiempos en que se realizaron las mediciones varían de muestra a muestra: $N_{S} \neq N_{S'}$ $t_{n, S} \neq t_{n, S'}$ en el caso general.

En otras palabras, cada muestra de datos es una serie de "sí o no", responde cuando se le preguntó en varias ocasiones.

Tengo algunos datos de entrenamiento. Ahora, dada una muestra de datos $S$, me gustaría predecir la respuesta a la siguiente pregunta, en otras palabras: el valor de $S(t_{N_S + 1})$. Aún mejor sería que la probabilidad de una respuesta de "no": $P(S(t_{N_S + 1}) = -1)$.

No tengo idea de cómo hacerlo. Cualquier sugerencia? Arrancadores?

EDIT: si las señales se mide siempre en el mismo horario ($t_{n, S} = t_{n, S'}$), y hubo un número constante de la señal de las mediciones para cada muestra de datos ($N_S = N$), luego podría producir para cada muestra de datos $S$ un vector de $N-1$ dimensiones que contienen el $N-1$ primera señal de mediciones: $S = [1, -1, -1, 1, 1, \dots]$. Medición de $S(t_N) \in \{-1, 1\}$ sería la etiqueta asociada a la muestra $S$. Entonces, el problema se reduce a una clasificación/regresión problema que puede ser resuelto e.g: con SVM lineal. Por desgracia, las diferencias de tiempo entre cada una de las señales de medición son importantes para el experimento.

2voto

Peter Puntos 658

En términos generales, no puedo pensar en tres enfoques:

  • Permanecer en su propio espacio: Diseño de una significativa función de distancia $d(S_1, S_2)$ entre las muestras. Por ejemplo, se podría hacer algo como recapitulación $t_1 * t_2$ sobre cada t en $S_1$ $S_2$ y la ponderación de la distancia entre los dos. Una vez que tenga esta función, puede utilizar el kernel de métodos para hacer su aprendizaje (por ejemplo. SVMs si usted está haciendo la clasificación). Si quieres demostrar que tu SVM se reunirán usted necesita para asegurarse de que su función de distancia es positiva semi-definitivo, pero en la práctica también puede trabajar muy bien de cualquier manera. Su rendimiento dependerá de cuán bien el diseño de su función de distancia.

  • Extracto de algunas de las características. Es decir. mapa a un m-espacio tridimensional. Un ejemplo de enfoque: divida la línea de tiempo en k (superpuestas) contenedores para los distintos valores de k, y el conteo de tres valores para cada rango de 1 a k: el número de 1s +1s y 0s (sin señal). Entonces, concatenar todos los valores (para todos los k, por 1 a k, todos los tres frecuencias) en un vector y usar eso como una representación de la instancia. A continuación, puede utilizar ningún tipo de clasificador te gusta. Su rendimiento dependerá de la calidad de su extracción de la característica. Se debe capturar la información más relevante y tratar de minimizar el número de dimensiones del vector resultante.

  • El uso de un modelo temporal. Una red neuronal recurrente o de un modelo oculto de markov puede leer las señales de la venida de aprender a sincronizar con la señal. A continuación, le continuamente predecir el siguiente valor en cualquier momento. El inconveniente es que hay mucho menos de un marco general. Usted tendrá que hacer más trabajo para implementar todo lo necesario para su dominio, y la comparación de los resultados entre los modelos es más difícil. De Echo las redes de estado (o de un embalse computing) son, probablemente, un buen modelo para investigar si la señal tiene una larga memoria.

Yo iría por la segunda opción si desea mantener las cosas simples, la primera si desea reducir opciones arbitrarias y la tercera, si los dos primeros no funcionan.

1voto

LexVjatkin Puntos 126

Si he entendido bien, esto es sólo secuenciales estándar binario de predicción. Usted tiene un alfabeto $\Sigma = \{-1,1\}$, y las muestras extraídas de $\Sigma^*$ (el conjunto de todos finito de cadenas de longitud por encima de su alfabeto) Dada una cadena de $s_{1:t-1} \in \Sigma^*$ (las observaciones de tiempo $1$$t-1$) desea predecir $s_{t}$.

Hay muchas técnicas que pueden aplicar. Lo que va a ser mejor depende en gran medida de la naturaleza de los datos, especialmente cosas como la duración de cada secuencia y del grado de complejidad de la estructura de dependencia. Por ejemplo, puede darse el caso de que $s_{t+1} = \text{sign}\left(\sum_{i=1}^{t} s_i\right) =$ la más frecuente símbolo es un buen predictor. Por otra parte, si tus datos, funciones de las dependencias separadas por largos períodos de tiempo, algo como $s_i = -1 \implies P(s_{i+100} = 1) >> P(s_{i+100} = -1)$, vas a tener un mal momento ya que estos tipos de relaciones son muy difíciles de aprender.

Sin saber más difícil es proponer un enfoque particular, pero aquí están algunas ideas potenciales para obtener su comenzado/darle cosas a google.

  • $n^{th}$ orden de los modelos de markov
  • $k$-vecinos más cercanos con algunos apropiado de la función de distancia (distancia de Levenshtein, por ejemplo)
  • modelos ocultos de markov
  • las redes neuronales recurrentes
  • contexto árbol de ponderación

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X