Después de medir el tiempo de respuesta de un sistema de software, calculé la desviación estándar de las muestras. El tiempo promedio es de aproximadamente 200 ms, la desviación estándar $$\sigma = 300 ms$$ Según la imagen a continuación, esto debería significar que el 68.2% de todos los tiempos de respuesta deberían estar entre -100 ms y 500 ms.
Imagen: https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica
Un tiempo de respuesta negativo obviamente no tiene sentido. ¿Cómo se debe interpretar la parte de la distribución normal que está encerrada en el recuadro rojo?
Datos de muestra con promedio similar ~202 desviación estándar ~337:
100
100
200
150
70
90
110
80
150
70
190
110
130
100
100
1500
14 votos
¿Por qué has asumido una distribución normal?
6 votos
Esto significa que la hipótesis sobre la distribución normal del tiempo de respuesta es pobre. Si su software tiene el parámetro "distribución", puede intentar con "Poisson".
0 votos
Tal vez intenta lognormal
0 votos
Relacionado: Esta pregunta
0 votos
Note that incluso con $\sigma=0.1\,\text{ms}$ "el rango es parcialmente imposible", es simplemente "solo" una cola en $2000\sigma$
0 votos
@luka5z Eso fue porque el artículo relacionado de Wikipedia sugiere la relación. Tenía esto =300ms y quería saber qué significa.
0 votos
@stacker ¿podrías tomar una captura de pantalla del fragmento en particular y publicarla?
0 votos
@luka5z De hecho, tengo 50.000 muestras pero serían similares al conjunto de muestras que añadí a la pregunta.
0 votos
@stacker En lugar de publicar una muestra pequeña con un valor atípico ENORME (no representativo) de un conjunto de datos grande, ¿por qué no publicas un histograma de todo el conjunto de datos?
0 votos
@stacker ¿Estás familiarizado con R-project? Mira el script en mi respuesta editada.
0 votos
¿No has considerado sacar el valor atípico de 1500?
0 votos
@luka5z Gracias, voy a descargar R, parece prometedor.
0 votos
@AlbertMasclans No, muy pocos (<1%) son realmente valores atípicos extremos
0 votos
@stacker Obtendrás el mejor resultado si utilizas una muestra grande (~1000). De todos modos, la estadística se trata de probar. Puedes probar tu muestra contra cualquier distribución no negativa. $R$ será extremadamente útil.
0 votos
Cualquier vez que genere estadísticas que parezcan imposibles o absurdas, mi primera suposición siempre es que he hecho una mala elección de modelo para mis datos.
1 votos
Trata de recordar que normalmente las distribuciones no son normales...