50 votos

Características para la clasificación de series temporales

Considero el problema de la (multiclase) clasificación basado en series temporales de longitud variable $T$ es decir, encontrar una función $$f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~,$$ mediante una representación global de la serie temporal por un conjunto de características $v_i$ de tamaño fijo $D$ independiente de $T$ , $$\phi(X_T) = v_1, \dots, v_D \in \mathbb{R}~,$$ y luego utilizar los métodos de clasificación estándar en este conjunto de características. Yo no interesado en la previsión, es decir, en predecir $x_{T+1}$ . Por ejemplo, podemos analizar la forma de caminar de una persona para predecir su sexo.

¿Cuáles son las características estándar que puedo tener en cuenta? En el ejemplo, podemos utilizar obviamente el media y desviación de la serie (o momentos de orden superior) y también buscar en el dominio de la frecuencia, como la energía contenida en algún intervalo de la Transformada discreta de Fourier de la serie (o Transformación Wavelet discreta ).

54voto

John Puntos 151

Características estadísticas simples

  • Significa en cada uno de los $d$ dimensiones
  • Desviaciones estándar de la $d$ dimensiones
  • Skewness , Kurtosis y los momentos de orden superior del $d$ dimensiones
  • Máximo y Mínimo valores

Funciones relacionadas con el análisis de series temporales

  • El $d \times d-1$ Correlaciones cruzadas entre cada dimensión y el $d$ Autocorrelaciones
  • Pedidos de la parte autorregresiva (AR), integrada (I) y de media móvil (MA) de una estimación ARIMA modelo
  • Parámetros de la parte AR
  • Parámetros de la parte MA

Características relacionadas con el dominio de la frecuencia

Ver Morchen03 para un estudio de las características que preservan la energía en la DFT y la DWT

  • frecuencias del $k$ picos en amplitud en el DFTs para el detrimento de $d$ dimensiones
  • $k$ -cuantiles de estos DFTs

1 votos

Emile, esta pregunta es similar a una que acabo de plantear ( stats.stackexchange.com/questions/51475/ ). ¿Podría publicar algún código R para las características de la DFT?

0 votos

¿Existe algún método basado en shapelets para series temporales de longitud variable?

13voto

Shoaib Mehmood Puntos 91

Como sugieren las otras respuestas, hay un gran número de características de las series temporales que pueden utilizarse como rasgos potenciales. Hay características sencillas como la media, características relacionadas con las series temporales como los coeficientes de un modelo AR o características muy sofisticadas como el estadístico de prueba de la prueba de hipótesis de Dickey Fuller aumentada.

Visión de conjunto sobre las posibles características de las series temporales

El paquete python tsfresh automatiza la extracción de esas características. Su documentación describe las diferentes características calculadas. Puede encontrar la página con las características calculadas aquí .

Descargo de responsabilidad: soy uno de los autores de tsfresh.

10voto

Rob Allen Puntos 486

Emile, creo que las características enumeradas en tu respuesta son un buen punto de partida, aunque, como siempre, creo que es igual de importante tener experiencia en el campo (o, al menos, una buena reflexión) sobre tu problema.

Puede considerar incluir características calculadas a partir de las derivadas (o integrales) de su señal. Por ejemplo, apostaría que la aceleración/deceleración rápida es un predictor razonablemente bueno de la conducción propensa a los accidentes. Obviamente, esa información sigue presente en la señal de posición, pero no es tan explícita.

También puede considerar la posibilidad de sustituir los coeficientes de Fourier por una representación de paquetes de ondas o wavelet. La principal ventaja de las ondículas es que permiten localizar una característica tanto en frecuencia como en tiempo, mientras que los coeficientes de Fourier tradicionales se limitan sólo al tiempo. Esto puede ser especialmente útil si sus datos contienen componentes que se activan y desactivan de forma irregular o tienen pulsos de tipo onda cuadrada que pueden ser problemáticos para los métodos de Fourier.

8voto

mazelife Puntos 1091

Le sugiero que, en lugar de utilizar los enfoques clásicos para la extracción de características de ingeniería manual, utilice autoencoders . Los autocodificadores desempeñan un papel importante en la extracción de características de la arquitectura de aprendizaje profundo.

El autoencoder intenta aprender una función $f(X_T)X_T$ . En otras palabras, se trata de aprender una aproximación a la función de identidad, con el fin de obtener $\hat X_T$ que es similar a $X_T$ .

La función de identidad parece una función particularmente trivial para tratar de aprender; pero al poner restricciones en la red, como Al limitar el número de unidades ocultas, podemos descubrir una estructura interesante sobre los datos.

Feature Extractor

De esta manera, su deseado $(X_T)=v_1,…,v_D \in R$ será equivalente a los valores de salida de la capa intermedia en un autocodificador profundo, Si se limita el número de unidades ocultas en la capa intermedia a $D$ .

Además, puede utilizar muchos sabores de autoencoder para encontrar la mejor solución a su problema.

5voto

Christian Davén Puntos 4527

El documento vinculado será algo esclarecedor, ya que se interesa por la misma cuestión más o menos en otro contexto.

Resumen del documento (en el Archivo de Internet)

Papel PDF

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X