Opciones de agregación de datos de dispersión

Question

Opciones de agregación de datos de dispersión

Preguntado el 31 de Enero, 2013: Cuando se hizo la pregunta
271 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo un montón de datos sobre el tiempo de respuesta de las páginas web, y estoy registrando las estadísticas de dispersión -tanto la varianza como el cuartil- cada hora.

¿Existen buenas formas de ampliar esta información a escalas de tiempo mayores (por ejemplo, diarias o semanales), en lugar de tener que volver a procesar el conjunto de datos original? Entiendo que en la ampliación inicial por horas se pierde algo de información, por lo que es posible que tenga que tener valores estimados para las ampliaciones diarias, semanales, etc., y eso está bien siempre que la estimación sea razonablemente cercana.

Una idea que tengo es que en los rollups horarios puedo modelar la distribución de los datos, y luego agregar los propios modelos para los rollups diarios/semanales/etc. Todavía no he hecho el trabajo de determinar los modelos apropiados para esos datos horarios, pero conceptualmente parece una dirección plausible. (Sólo como un aparte, ¿hay distribuciones que son generalmente aceptadas como modelos razonables para los tiempos de respuesta de las páginas web?)

Otra idea sería tener algunos bins predefinidos -por ejemplo, [0, 0,5), [0,5, 1,0), [1,0, 2,0), etc., y almacenar los recuentos. Por supuesto, podría tener más bins para una mejor resolución.

¿Hay otros enfoques que merezcan ser explorados?

No estoy buscando necesariamente soluciones teóricamente perfectas. Básicamente, estoy creando un panel de control operativo para un grupo de aplicaciones web, y necesito una forma práctica de permitir al personal operativo ver las estadísticas de dispersión en diferentes escalas de tiempo.

Preguntado el 31 de Enero, 2013 por bhollis

Answer 1

1 Respuestas

Answer 2

0voto

bhollis Puntos 2178

Sólo como seguimiento de la idea que describí en la propia pregunta, parece que funcionará bien.

Aquí hay una tabla que muestra cómo funciona el binning. Estoy haciendo una escala log_10 en los tiempos de respuesta, que se expresan en milisegundos y aparecen como encabezados en la tabla de abajo. Las filas corresponden a instantáneas de 5 minutos, y los valores de las celdas son recuentos.

Table demonstrating log scale response time binning

Aquí hay un gráfico con los mismos datos.

Chart demonstrating log scale response time binning

Una vez más, me gustaría escuchar otros posibles enfoques, pero quería compartir este ya que funciona. Está claro que podré agregar estas instantáneas de cinco minutos a las de una hora, a las de un día, etc.

Respondido el 1 de Febrero, 2013 por bhollis (2178 Puntos )

Opciones de agregación de datos de dispersión

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Opciones de agregación de datos de dispersión

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: