Hay varias técnicas que pueden aplicarse para detectar anomalías en las series temporales. El enfoque de la "varianza corrida" ilustrado en el enlace del PO no es un método válido, ya que el uso de la media $\pm$ k SD es muy simplista, no tiene en cuenta los comportamientos irregulares normales, implica una gran pérdida de información, no considera el ruido, etc.
Los métodos utilizados en este contexto pueden clasificarse en tres grupos principales: 1) no supervisados, en los que no es necesario generar ningún conjunto de datos de referencia y las series temporales $x_i$ se analiza directamente (bajo el supuesto de que la mayoría de los datos son normales) buscando las instancias que menos se "ajustan" a las demás instancias del conjunto de datos; 2) supervisada, que requiere un conjunto de datos de entrenamiento que contenga instancias normales y anormales etiquetadas; 3) semisupervisada, en la que un conjunto de datos de referencia $y_i$ construida con una serie temporal de entrenamiento normal se toma como modelo de comportamiento normal, y se utiliza para asignar una puntuación de anomalía a los casos del conjunto de datos observados $x_i$ . Este último grupo incluye una serie de subgrupos diferentes, como métodos basados en el kernel, en la ventana, en la predicción y en la caja (también llamados basados en la segmentación). En todas las técnicas, las instancias pueden ser puntos de datos individuales, secuencias, subsecuencias, etc.
Basándose en la información dada en el PO, en este caso un enfoque no supervisado puede ser probablemente el mejor equilibrio entre rendimiento y simplicidad. Una técnica ampliamente utilizada que entra en este grupo es el llamado algoritmo del vecino más cercano, un método basado en la distancia que parte del supuesto de que las instancias normales ocurren en vecindarios "densos", mientras que las instancias anómalas ocurren lejos de sus vecinos más cercanos. En resumen, cada instancia recibe una puntuación de anomalía, definida como la distancia entre esa instancia y el $k^{th}$ vecino más cercano en el conjunto de datos (con $k$ normalmente un pequeño número entero, a menudo fijado en $1$ ). A continuación, se utiliza un umbral para identificar si la instancia es anómala o no. Se pueden utilizar varios tipos de distancias, pero para las variables continuas la distancia euclidiana (en 2D, $d=|x_i^2-x_j^2|$ ) es la más adoptada.
Por último, hay que tener en cuenta que existen numerosas variantes de este método propuestas por diferentes autores. Por ejemplo, es posible definir como anomalías simplemente las mayores $m$ distancias observadas en el conjunto de datos, por lo que no es necesario definir un umbral. Por otra parte, la puntuación de anomalía de una instancia dada puede calcularse alternativamente sumando las distancias de su $k$ vecinos más cercanos, o contando el número $j$ de vecinos más cercanos que no sean más de $d$ distancia de esa instancia. Esta última variante, que calcula sustancialmente la densidad de datos en una n-esfera de radio $d$ alrededor de cada instancia, se utiliza comúnmente debido a su simplicidad: en una dimensión, la densidad es $j/d$ en 2D (como probablemente sería la situación del OP) es $j/(\pi d^2)$ y así sucesivamente. La puntuación de la anomalía resultante viene dada por la inversa de la densidad. Como simplificación adicional, algunos autores han sugerido anteriormente utilizar, como puntuación de la anomalía, la relación $1/j$ una vez $d$ está predefinido, o $d$ (alternativamente la relación $1/d$ ) una vez $j$ está predefinido.
El enfoque no supervisado del vecino más cercano puede probablemente resolver la mayoría de los problemas mencionados en el PO. Si se elige una representación temporal adecuada (yo sugeriría trazar los datos con una representación cíclica, utilizando inicialmente un rango del eje x de una semana), los picos grandes "normales" (por ejemplo, en el fin de semana) se reconocen bien y no se identifican como anomalías, mientras que los picos anormales más pequeños se identifican rápidamente. El método también permite identificar fácilmente las anomalías con respecto a ese día concreto de la semana, por ejemplo, un pico que se produce el lunes y que es anormal con respecto al lunes "normal", o comparar dos días entre semanas diferentes. Por último, la elección de la frecuencia de medición adecuada depende de la definición temporal que queramos alcanzar en nuestro análisis. Aunque algunos análisis cuantitativos podrían explorar también esta cuestión, en la mayoría de los casos la frecuencia de medición se elige empíricamente en función de la definición temporal deseada y tras una inspección visual de los datos.