En este caso, "genérico" es todo el conjunto de series temporales macroeconómicas que publican las oficinas estadísticas privadas y gubernamentales.
Algunos antecedentes: hace poco empecé a trabajar en un proveedor de datos; recopilamos publicaciones de datos y las reagrupamos de una manera presumiblemente más conveniente y accesible para nuestros clientes, y tenemos decenas de miles de series de datos (no me sorprendería que superáramos el millón, en realidad). Como parte de nuestro proceso de control de calidad, realizamos la siguiente detección de valores atípicos:
$X_t-X_{t-1} = E_t$
$\sigma^2$ se estima a partir de la muestra resultante de $E_t$ y se calcula una puntuación z basada en $E_t\sim N(0,\sigma^2)$
Creo que podemos hacerlo mejor: las matemáticas se desmoronan claramente para todo lo que no es un paseo aleatorio.
Inicialmente pensé en ajustar un ARMA(m,n) basado en el pico de las funciones de autocorrelación/autocovarianza de las series y comprobar los residuos. Desconfío de la robustez de esto, y un anterior pregunta parece indicar que la autocorrelación no es especialmente robusta.
5 votos
¿qué es un valor atípico? La respuesta depende en gran medida de la definición. Por ejemplo, la crisis de 2008 se reflejará en una gran caída de bastantes indicadores macroeconómicos y, de acuerdo con las definiciones convencionales de valor atípico (el valor que "está lejos" del "centro"), esta caída será un valor atípico, pero definitivamente no del tipo que se quiere desechar.
0 votos
"Guantelete" o " gama "?
0 votos
Este último. @mpiktas - Ciertamente. Por supuesto que no se automatiza todo el proceso, sino que se marcan los valores que deben requerir atención. Lo que hace falta es no intervenir en dicho marcado de valores.