4 votos

Opciones de agregación de datos de dispersión

Tengo un montón de datos sobre el tiempo de respuesta de las páginas web, y estoy registrando las estadísticas de dispersión -tanto la varianza como el cuartil- cada hora.

¿Existen buenas formas de ampliar esta información a escalas de tiempo mayores (por ejemplo, diarias o semanales), en lugar de tener que volver a procesar el conjunto de datos original? Entiendo que en la ampliación inicial por horas se pierde algo de información, por lo que es posible que tenga que tener valores estimados para las ampliaciones diarias, semanales, etc., y eso está bien siempre que la estimación sea razonablemente cercana.

Una idea que tengo es que en los rollups horarios puedo modelar la distribución de los datos, y luego agregar los propios modelos para los rollups diarios/semanales/etc. Todavía no he hecho el trabajo de determinar los modelos apropiados para esos datos horarios, pero conceptualmente parece una dirección plausible. (Sólo como un aparte, ¿hay distribuciones que son generalmente aceptadas como modelos razonables para los tiempos de respuesta de las páginas web?)

Otra idea sería tener algunos bins predefinidos -por ejemplo, [0, 0,5), [0,5, 1,0), [1,0, 2,0), etc., y almacenar los recuentos. Por supuesto, podría tener más bins para una mejor resolución.

¿Hay otros enfoques que merezcan ser explorados?

No estoy buscando necesariamente soluciones teóricamente perfectas. Básicamente, estoy creando un panel de control operativo para un grupo de aplicaciones web, y necesito una forma práctica de permitir al personal operativo ver las estadísticas de dispersión en diferentes escalas de tiempo.

0voto

bhollis Puntos 2178

Sólo como seguimiento de la idea que describí en la propia pregunta, parece que funcionará bien.

Aquí hay una tabla que muestra cómo funciona el binning. Estoy haciendo una escala log_10 en los tiempos de respuesta, que se expresan en milisegundos y aparecen como encabezados en la tabla de abajo. Las filas corresponden a instantáneas de 5 minutos, y los valores de las celdas son recuentos.

Table demonstrating log scale response time binning

Aquí hay un gráfico con los mismos datos.

Chart demonstrating log scale response time binning

Una vez más, me gustaría escuchar otros posibles enfoques, pero quería compartir este ya que funciona. Está claro que podré agregar estas instantáneas de cinco minutos a las de una hora, a las de un día, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X