21 votos

Análisis de series temporales con muchos valores cero

Este problema trata en realidad de la detección de incendios, pero es muy análogo a algunos problemas de detección de desintegración radiactiva. El fenómeno observado es esporádico y muy variable, por lo que la serie temporal estará formada por largas cadenas de ceros interrumpidas por valores variables.

El objetivo no es la mera captura de acontecimientos (rupturas en los ceros), sino la caracterización cuantitativa de los propios acontecimientos. Sin embargo, los sensores son limitados, por lo que a veces registrarán ceros aunque la "realidad" sea distinta de cero. Por este motivo, los ceros deben incluirse al comparar los sensores.

El sensor B podría ser más sensible que el sensor A, y me gustaría poder describirlo estadísticamente. Para este análisis, no dispongo de la "verdad", pero sí de un sensor C, que es independiente de los sensores A y B. Así, mi expectativa es que una mejor concordancia entre A/B y C indica una mejor concordancia con la "verdad". (Esto puede parecer inestable, pero tendrás que confiar en mí estoy en terreno sólido aquí, basado en lo que se sabe de otros estudios sobre los sensores).

El problema, entonces, es cómo cuantificar "una mejor concordancia de las series temporales". La correlación es la opción obvia, pero se verá afectada por todos esos ceros (que no se pueden omitir) y, por supuesto, desproporcionadamente afectada por los valores máximos. También podría calcularse el RMSE, pero estaría fuertemente ponderado por el comportamiento de los sensores en el caso cercano a cero.

P1: ¿Cuál es la mejor manera de aplicar una escala logarítmica a valores distintos de cero que luego se combinarán con ceros en un análisis de series temporales?

P2: ¿Qué "mejores prácticas" puede recomendar para un análisis de series temporales de este tipo, en el que el comportamiento en valores distintos de cero es el centro de atención, pero los valores cero dominan y no pueden excluirse?

13voto

Owen Fraser-Green Puntos 642

Para replantear su pregunta " ¿Cómo afronta el analista los largos periodos sin demanda que no siguen ningún patrón específico?"

La respuesta a su pregunta es Análisis de Demanda Intermitente o Análisis de Datos Esparcidos. El problema es que hay dos variables aleatorias: el tiempo entre eventos y el tamaño esperado del evento. Como has dicho, la autocorrelación (acf) del conjunto completo de lecturas carece de sentido debido a que la secuencia de ceros realza falsamente la acf. Puedes seguir hilos como el "método de Croston", que es un procedimiento basado en modelos más que en datos. El método de Croston es vulnerable a los valores atípicos y a los cambios/tendencias/desplazamientos de nivel en la tasa de demanda, es decir, la demanda dividida por el número de periodos transcurridos desde la última demanda. Un enfoque mucho más riguroso podría consistir en buscar "Datos dispersos - Datos desigualmente espaciados" o búsquedas por el estilo. El profesor Ramesh Sharda, de la OSU, me sugirió una solución bastante ingeniosa que llevo utilizando varios años en mi consultoría. Si una serie tiene puntos temporales en los que se producen ventas y largos periodos de tiempo en los que no se producen ventas, es posible convertir las ventas en ventas por periodo dividiendo las ventas observadas por el número de periodos sin ventas, obteniendo así una tasa. Entonces es posible identificar un modelo entre la tasa y el intervalo entre ventas que culmina en una tasa prevista y un intervalo previsto. Puede encontrar más información sobre este tema en autobox.com y buscar en Google "demanda intermitente".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X