Tengo un montón de datos sobre el tiempo de respuesta de las páginas web, y estoy registrando las estadísticas de dispersión -tanto la varianza como el cuartil- cada hora.
¿Existen buenas formas de ampliar esta información a escalas de tiempo mayores (por ejemplo, diarias o semanales), en lugar de tener que volver a procesar el conjunto de datos original? Entiendo que en la ampliación inicial por horas se pierde algo de información, por lo que es posible que tenga que tener valores estimados para las ampliaciones diarias, semanales, etc., y eso está bien siempre que la estimación sea razonablemente cercana.
Una idea que tengo es que en los rollups horarios puedo modelar la distribución de los datos, y luego agregar los propios modelos para los rollups diarios/semanales/etc. Todavía no he hecho el trabajo de determinar los modelos apropiados para esos datos horarios, pero conceptualmente parece una dirección plausible. (Sólo como un aparte, ¿hay distribuciones que son generalmente aceptadas como modelos razonables para los tiempos de respuesta de las páginas web?)
Otra idea sería tener algunos bins predefinidos -por ejemplo, [0, 0,5), [0,5, 1,0), [1,0, 2,0), etc., y almacenar los recuentos. Por supuesto, podría tener más bins para una mejor resolución.
¿Hay otros enfoques que merezcan ser explorados?
No estoy buscando necesariamente soluciones teóricamente perfectas. Básicamente, estoy creando un panel de control operativo para un grupo de aplicaciones web, y necesito una forma práctica de permitir al personal operativo ver las estadísticas de dispersión en diferentes escalas de tiempo.