Estoy buscando algunas técnicas sólidas para eliminar los valores atípicos y los errores (sea cual sea la causa) de los datos de las series temporales financieras (es decir, los datos de los tics).
Los datos de las series temporales financieras son muy confusos. Contienen enormes lagunas (temporales) cuando la bolsa está cerrada, y dan enormes saltos cuando la bolsa se abre de nuevo. Cuando la bolsa está abierta, todo tipo de factores introducen operaciones a niveles de precios que son erróneos (no se produjeron) y/o no son representativos del mercado (un pico debido a un precio de compra o venta introducido incorrectamente, por ejemplo). Este documento de tickdata.com (PDF) hace un buen trabajo al esbozar el problema, pero ofrece pocas soluciones concretas.
La mayoría de los artículos que he encontrado en Internet que mencionan este problema o bien lo ignoran (se supone que los datos de los garrapatos están filtrados) o bien incluyen el filtrado como parte de algún modelo comercial enorme que oculta cualquier paso de filtrado útil.
¿Alguien conoce algún trabajo más profundo en este ámbito?
Actualización: estas preguntas parece similar en la superficie pero:
- Las series temporales financieras son (al menos a nivel de ticks) no periódicas.
- El efecto de apertura es un gran problema porque no puedes usar simplemente los datos del último día como inicialización aunque te gustaría mucho (porque si no, no tienes nada). Los acontecimientos externos pueden hacer que la apertura del nuevo día difiera drásticamente tanto en el nivel absoluto como en la volatilidad del día anterior.
- Frecuencia de entrada de datos muy irregular. Cerca de la apertura y el cierre del día, la cantidad de puntos de datos/segundo puede ser 10 veces superior a la media del día. La otra pregunta se refiere a los datos muestreados regularmente.
- Los "valores atípicos" en los datos financieros muestran algunos patrones específicos que podrían detectarse con técnicas específicas no aplicables en otros dominios y estoy -en parte- buscando esas técnicas específicas.
- En casos más extremos (por ejemplo, la caída del flash), los valores atípicos pueden suponer más del 75% de los datos en intervalos más largos (> 10 minutos). Además, la (alta) frecuencia de los datos entrantes contiene cierta información sobre el aspecto atípico de la situación.