12 votos

La Detección de valores atípicos en Series de Tiempo: Cómo reducir los falsos positivos?

Estoy tratando de automatizar la detección de valores atípicos en series de tiempo y he usado una modificación de la solución propuesta por Rob Hyndman aquí.

Decir, yo medida diaria de visitas a un sitio web de diversos países. Para algunos países donde las visitas diarias son un par de hundrends o miles, mi método parece funcionar razonablemente.

Sin embargo, en los casos en que un país lleva a sólo 1 o 2 visitas por día, de los límites del algoritmo son muy estrecho (por ejemplo, 1 ± 0,001) y por lo tanto el 2 visitas son considerados como un valor atípico. ¿Cómo podría yo detectar automáticamente estos casos ¿y cómo tratarlos para identificar valores atípicos? No me gustaría establecer un manual de umbral de, digamos, 100 visitas por día.

Gracias!

3voto

Loren Pechtel Puntos 2212

No hay que esperar mucho para los pequeños, discretos cuenta. Pasando de 1 a 2 visitas es de un 100% de aumento, y va de 0 a 1 visitas es un infinito aumento. En niveles bajos puede tratar con cero-inflado de los modelos, y puede ser muy ruidoso ahí abajo también.

En mi experiencia, los datos de recuento con una mezcla de grandes y pequeños cuenta como esto se traduce en dos problemas con su pequeña cuenta: 1) que son demasiado gruesos para hacer mucho con el, 2) que son generados por los diferentes procesos. (Pensar en pequeño, rural, oficina de correos, contra los grandes de la ciudad de la oficina de correos). Por lo que usted necesita, al menos, dividir su modelado en dos: ¿qué estás haciendo correctamente para la gran cuenta, y hacer algo diferente, más grueso y más aproximado -- con pequeñas cuentas. Pero no esperes mucho de la pequeña cuenta.

La buena noticia es que la gran cuenta, por definición, incluyen más de sus transacciones, por lo que su mejor modelo cubre más de los datos, aunque no puede cubrir la mayoría de sus sitios.

(Digo "modelado" para ser general, pero, por supuesto, la detección de valores atípicos está asumiendo un modelo en particular y la búsqueda de los puntos que son altamente improbable con la modelo suposiciones.)

1voto

quant actuary Puntos 11

Cada valor de la serie temporal es una muestra de una distribución de probabilidad. Usted necesita encontrar primero lo que la distribución de probabilidad es y, a continuación, definir el significado de la palabra rara significa que dentro de la distribución.

Para calcular el cdf empírica, y calcular el intervalo de confianza 95%. Cada vez que algo fuera de la región se ha producido, entonces, por definición, usted sabe que debe ser un evento raro.

0voto

Acoustesh Puntos 66

Usted tiene este problema debido a que sus datos está lejos de una distribución normal. Si la distribución es muy asimétrica, con bultos, protuberancias o demasiado cortas/largas colas se encontrará con problemas. Una buena idea es aplicar una transformación Box Cox o Yeo-Johnson antes de utilizar su método. En tu ejemplo, si utiliza F(x) = log(1+x) evitar la diferente magnitud problema y se puede convertir de nuevo mediante: exp(z) -1

Existen varios procedimientos que puede utilizar para encontrar automáticamente un buen lambda para el Box-Cox de transformación. Yo personalmente uso la mediana de todos los métodos de la boxcoxnc función de un paquete de AYUDA en R. Si sus datos no son estrictamente positivos, usted deberá agregar 1 o a otro número positivo antes de usarlo.

-1voto

Owen Fraser-Green Puntos 642

Una cosa es detectar un valor Atípico en un determinado nivel de confianza y otro para colocar una segunda especificación que podría restringir aún más la aceptación de los demás. Me preguntó una vez a la siguiente pregunta "Puede AUTOBOX detectar una media de cambio de xx unidades en un pre-determinado nivel de confianza". Esencialmente lo que se necesitaba era una doble prueba. AUTOBOX es una pieza de software que me han ayudado a desarrollar que puede resultarle rentable como no el software libre ha implementado esta doble prueba.

Gracias Nick: yo estaba usando un cambio de nivel como un ejemplo particular de un "outlier" o, en general, la empíricamente identificados determinista impacto. Otras formas de "valores atípicos" son Pulsos, de Temporada, Legumbres y Local de las Tendencias en el Tiempo Y en particular de las combinaciones tales como un transitorio de cambiar a un nuevo nivel. El punto principal era que no se puede ser de dos hipótesis que están en juego refleja la significación estadística y en el mundo real significado. El cliente que lo había traído a este problema a mi atención estaba interesado en ambos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X