Este problema trata en realidad de la detección de incendios, pero es muy análogo a algunos problemas de detección de desintegración radiactiva. El fenómeno observado es esporádico y muy variable, por lo que la serie temporal estará formada por largas cadenas de ceros interrumpidas por valores variables.
El objetivo no es la mera captura de acontecimientos (rupturas en los ceros), sino la caracterización cuantitativa de los propios acontecimientos. Sin embargo, los sensores son limitados, por lo que a veces registrarán ceros aunque la "realidad" sea distinta de cero. Por este motivo, los ceros deben incluirse al comparar los sensores.
El sensor B podría ser más sensible que el sensor A, y me gustaría poder describirlo estadísticamente. Para este análisis, no dispongo de la "verdad", pero sí de un sensor C, que es independiente de los sensores A y B. Así, mi expectativa es que una mejor concordancia entre A/B y C indica una mejor concordancia con la "verdad". (Esto puede parecer inestable, pero tendrás que confiar en mí estoy en terreno sólido aquí, basado en lo que se sabe de otros estudios sobre los sensores).
El problema, entonces, es cómo cuantificar "una mejor concordancia de las series temporales". La correlación es la opción obvia, pero se verá afectada por todos esos ceros (que no se pueden omitir) y, por supuesto, desproporcionadamente afectada por los valores máximos. También podría calcularse el RMSE, pero estaría fuertemente ponderado por el comportamiento de los sensores en el caso cercano a cero.
P1: ¿Cuál es la mejor manera de aplicar una escala logarítmica a valores distintos de cero que luego se combinarán con ceros en un análisis de series temporales?
P2: ¿Qué "mejores prácticas" puede recomendar para un análisis de series temporales de este tipo, en el que el comportamiento en valores distintos de cero es el centro de atención, pero los valores cero dominan y no pueden excluirse?