Tengo un conjunto de datos de series de tiempo. Cada serie cubre el mismo período, aunque las fechas reales de cada serie temporal pueden no estar todas "alineadas" exactamente.
Es decir, si la serie de tiempo se leyera en una matriz 2D, se vería algo así:
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
Quiero escribir un guión R que separará las series temporales {T1, T2, ... TN} en 'familias' donde una familia se define como un conjunto de series que "tienden a moverse en simpatía" entre sí.
Para la parte de "agrupación", necesitaré seleccionar/definir un tipo de medida de distancia. No estoy muy seguro de cómo hacerlo, ya que estoy tratando con series temporales, y un par de series que pueden moverse en simpatía en un intervalo, puede no hacerlo en un intervalo posterior.
Estoy seguro de que hay mucha más gente con experiencia y habilidad que yo aquí, por lo que agradecería cualquier sugerencia, ideas sobre qué algoritmo/heurístico utilizar para la medida de la distancia y cómo utilizarlo para agrupar las series temporales.
Mi conjetura es que NO hay un método estadístico robusto establecido para hacer esto, así que estaría muy interesado en ver cómo la gente se acerca/resuelve este problema - pensando como un estadístico.
1 votos
También pueden interesarle las respuestas a esta pregunta, stats.stackexchange.com/q/2777/1036
1 votos
Y ésta: stats.stackexchange.com/questions/3331/
1 votos
Hay un método estadístico basado en procesos Dirichlet que funciona para conjuntos de datos en los que los puntos temporales no son los mismos para todas las muestras.