7 votos

Detección de valores atípicos en series temporales genéricas

En este caso, "genérico" es todo el conjunto de series temporales macroeconómicas que publican las oficinas estadísticas privadas y gubernamentales.

Algunos antecedentes: hace poco empecé a trabajar en un proveedor de datos; recopilamos publicaciones de datos y las reagrupamos de una manera presumiblemente más conveniente y accesible para nuestros clientes, y tenemos decenas de miles de series de datos (no me sorprendería que superáramos el millón, en realidad). Como parte de nuestro proceso de control de calidad, realizamos la siguiente detección de valores atípicos:

$X_t-X_{t-1} = E_t$
$\sigma^2$ se estima a partir de la muestra resultante de $E_t$ y se calcula una puntuación z basada en $E_t\sim N(0,\sigma^2)$

Creo que podemos hacerlo mejor: las matemáticas se desmoronan claramente para todo lo que no es un paseo aleatorio.

Inicialmente pensé en ajustar un ARMA(m,n) basado en el pico de las funciones de autocorrelación/autocovarianza de las series y comprobar los residuos. Desconfío de la robustez de esto, y un anterior pregunta parece indicar que la autocorrelación no es especialmente robusta.

5 votos

¿qué es un valor atípico? La respuesta depende en gran medida de la definición. Por ejemplo, la crisis de 2008 se reflejará en una gran caída de bastantes indicadores macroeconómicos y, de acuerdo con las definiciones convencionales de valor atípico (el valor que "está lejos" del "centro"), esta caída será un valor atípico, pero definitivamente no del tipo que se quiere desechar.

0 votos

"Guantelete" o " gama "?

0 votos

Este último. @mpiktas - Ciertamente. Por supuesto que no se automatiza todo el proceso, sino que se marcan los valores que deben requerir atención. Lo que hace falta es no intervenir en dicho marcado de valores.

4voto

Owen Fraser-Green Puntos 642

Tienes mucha razón en que el modelo ARIMA que estás utilizando (primeras diferencias) puede no ser apropiado para detectar valores atípicos. Los valores atípicos pueden ser pulsos, cambios de nivel, pulsos estacionales o tendencias temporales locales. Tal vez quiera buscar en Google "DETECCIÓN DE INTERVENCIONES EN SERIES DE TIEMPO" o "DETECCIÓN AUTOMÁTICA DE INTERVENCIONES" para obtener material de lectura sobre la DETECCIÓN DE INTERVENCIONES. Tenga en cuenta que esto no es lo mismo que la MODELIZACIÓN DE LA INTERVENCIÓN, que a menudo asume la naturaleza del valor atípico y no identifica empíricamente el mismo. Siguiendo las observaciones de mpkitas, uno incluiría los valores atípicos identificados empíricamente como series predictoras ficticias para acomodar su impacto. Se ha trabajado mucho en la identificación de los valores atípicos utilizando un filtro nulo y luego identificando el modelo ARIMA apropiado. Algunos paquetes comerciales suponen que primero se identifica el modelo ARIMA (posiblemente defectuoso por los valores atípicos) y luego se identifican los valores atípicos. Los procedimientos más generales examinan ambas estrategias. Su procedimiento actual sigue el enfoque de "utilizar primero el filtro frontal", pero también es defectuoso por la suposición del filtro frontal.

Algunas reflexiones más: para detectar una anomalía, se necesita un modelo que proporcione una expectativa. La detección de una anomalía proporciona la respuesta a la pregunta "¿Cuál es la probabilidad de observar lo que he observado antes de observarlo? A continuación, se puede utilizar un modelo ARIMA para identificar las observaciones "inusuales" de la serie temporal. El problema es que no se puede detectar un valor atípico sin un modelo (al menos leve) para los datos. Si no, ¿cómo sabrías que un punto viola ese modelo? De hecho, el proceso de aumentar la comprensión y encontrar y examinar los valores atípicos debe ser iterativo. Esta idea no es nueva. Bacon, escribiendo en Novum Organum hace unos 400 años, dijo "Los errores de la Naturaleza, los Deportes y los Monstruos corrigen el entendimiento respecto a las cosas ordinarias, y revelan las formas generales. Porque quien conozca las formas de la Naturaleza notará más fácilmente sus desviaciones; y, por otra parte, quien conozca sus desviaciones entenderá más exactamente la Naturaleza, El modelo que estáis imponiendo en todas vuestras series i es claramente un camino inadecuado.

0 votos

(+1) Estaba bastante seguro de que respondería a su tema favorito :) @IrishStat, puede ser que usted tiene también sus comentarios preferidos (sólo para aquellos que no tiene tiempo para cavar en los motores de búsqueda).

0 votos

@Dm: Ya que preguntaste 1)Una visión general stpete.usf.edu/gkearns/Articles_Fraud/Fraud%20Magazine1.pdf ; 2)Detalles sobre cómo programar la Detección de Intervenciones autobox.com/pdfs/alteracióndelbosque.pdf

0 votos

@Dm: Por consideraciones de transparencia debo advertirte que soy uno de los desarrolladores de AUTOBOX que se cita en las dos referencias anteriores. Para otros sitios comerciales significativamente menos potentes en mi opinión, ya que no detectan tendencias temporales o pulsos estacionales, podría mirar support.sas.com/documentation/cdl/es/etsug/60372/HTML/default/ .

0voto

Anders Sandvig Puntos 7964

La winsorización sustituye los valores extremos de los datos por otros menos extremos. http://www.r-bloggers.com/winsorization/

1 votos

Si la serie se ve como 1,9,1,9,1,9,1,9,5,9,1,9,1,9 ,winsoration no ayuda

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X