6 votos

Datos de series de tiempo de preprocesamiento para minería de datos / entrada de modelado predictivo

¿Cuáles son algunas maneras de preparar/pre-proceso de datos de series de tiempo para el uso de la serie de datos como un predictor(s) en un modelo predictivo (clasificación o regresión)? Específicamente, ¿cuáles son los métodos a ser considerados con el fin de

  • Conseguir el la mayoría de los predicatively señal útil de los datos?
  • Reducir la dimensionalidad de la serie

Como un ejemplo concreto, tengo 90 días de acabar con los datos de equilibrio (cantidad en depósito en una cuenta de cheques). Quiero usar los datos para predecir si el propietario de la cuenta se cerrará en las próximas 2 semanas (tengo un indicador de que esto ocurra o no 2 semanas después del final de la serie).

ADEMÁS:

Después de revisar las respuestas, creo que estaba buscando una lista de las técnicas comúnmente usadas.

  • No hay duda de que son la característica de la creación en la que Matt Krause escribió acerca de (cada uno de los clientes saldo de la serie son tratados por separado en todos estos métodos): Cosas como las diferencias y % cambios en los valores de la serie cada día o cada semana. Hay ventana deslizante aggrgations como promedios semanales, min, max y variaciones estándar. También el número de aumentos y disminuciones de indicadores de los cambios en los saldos (absoluta o relativa de un cierto tamaño).
  • He considerado la colocación de una lineal o regresión polinomial para cada serie y el uso de los coeficientes en el modelo como predictores.
  • Otras cosas que me he preguntado acerca de cada serie de equilibrio calcular el auto correlaciones para un número máximo de retardos y utilizar estos valores como predictores.
  • Clúster de la serie de tiempo en un número relativamente pequeño de valores y uso de los indicadores para el grupo de pertenencia como predictores (uso de tiempo dinámicos de deformación de la distancia y la agrupación jerárquica, por ejemplo).

¿Hay otros?

  • Por ejemplo, hacer las transformadas de Fourier de trabajo aquí? Me pueden enviar una pregunta por separado sobre ellos.

8voto

Rob Allen Puntos 486

Estoy de acuerdo con lo user765195 dijo: no hay ninguna bala mágica aquí que va a trabajar para todos sus problemas. Tienes que venir para arriba con potencialmente útil de las características basadas en su conocimiento del dominio. Nunca he trabajado en un banco, así que tome estas sugerencias con un grano de sal, pero ¿qué hay de

  • "Volatilidad" Cuando he cambiado los bancos, que tienden a usar la nueva cuenta por un tiempo antes de que cierre el anterior, ya que toma un tiempo para el pago de nómina/cargos recurrentes para obtener mover más. Tal vez la variación de la balanza (o cambios en la varianza más de tiempo más corto de windows) que la captura del este?

  • El Tamaño de la transacción de Tomar la derivada de los saldos diarios daría una idea de la (neto) de las transacciones diarias. Tal vez la gente hacer anamolously grandes retiros antes de cerrar sus cuentas (por ejemplo, para configurar una nueva cuenta en otro lugar).

Si yo fuera usted, me gustaría empezar por hacer una larga lista de posibles características. Tallar sus datos en un conjunto de pruebas, un desarrollo y un conjunto de entrenamiento. Prueba de las nuevas características en la formación+desarrollo de conjuntos y ver lo que funciona. Personalmente, me gustaría lanzar todo y ver lo que ocurra primero. Hay un montón de algoritmos de selección de características, que van desde el cerebro muerto, pero exhaustiva (probar todas las combinaciones posibles!) a algo así como la proyección de búsqueda o la escalada, que podría ser más manejable para grandes conjuntos de datos.

Luego, una vez que haya establecido un modelo, el uso de la anteriormente-virgen de los datos de prueba para evaluar su rendimiento.

2voto

Niall Puntos 51

Todo depende de cómo planear para hacer predicciones después de que usted haya terminado de pre-procesamiento de datos. Por ejemplo, si usted espera consecutivos observaciones de una serie de tiempo $y_t$ a ser linealmente relacionada con las mediciones anteriores:

$$ y_{t} = \beta_0 + \beta_1 y_{t-1} + \cdots $$

entonces es mejor elegir una transformación lineal. O, si se espera que las medidas consecutivas a ser multiplicatively relacionadas entre sí:

$$ y_{t} = \eta_{0} \cdot y_{t-1}^{\eta_{1}} \cdot \cdot \cdot $$

a continuación, una transformación logarítmica (y posterior modelo lineal) iba a conseguir esto desde

$$ \log(y_{t}) = \log(\eta_0) + \eta_{1} \log(y_{t-1}) + \cdot \cdot \cdot $$

Usted puede investigar diversas transformaciones para ver cuál ofrece el mejor poder predictivo. Pero, el "mejor predictor" dependerá de la medida de la precisión de la predicción.

Respecto a la reducción de dimensiones, su ejemplo sólo parece implicar 2 variables de la dimensión de la reducción de la frecuencia se refiere a la situación en la que usted tiene un gran número de predictores y quieren reducir el número en una serie de principios. Si usted tiene esa situación, puede utilizar técnicas estándar (por ejemplo, PCA) para la reducción de dimensiones, que no están relacionados con el hecho de que esta es una serie de tiempo.

Si te refieres a la reducción de dimensiones en el sentido de reducir el número de intervalos de tiempo, los únicos tipos de transformaciones que se va a lograr esto es como un promedio de más puntos de tiempo (por ejemplo, para calcular los promedios semanales a partir de datos diarios). Sería difícil justificar algo como esto al menos es drásticamente más fácil para el ajuste de datos semanales de datos diarios (por ejemplo, para los datos de precipitación, es más fácil predecir la precipitación promedio sobre el curso de una semana de lo que es predecir el diario de precipitaciones de valores).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X