13 votos

¿Cómo se puede interpretar la desviación estándar cuando el rango es parcialmente imposible?

Después de medir el tiempo de respuesta de un sistema de software, calculé la desviación estándar de las muestras. El tiempo promedio es de aproximadamente 200 ms, la desviación estándar $$\sigma = 300 ms$$ Según la imagen a continuación, esto debería significar que el 68.2% de todos los tiempos de respuesta deberían estar entre -100 ms y 500 ms.

introducir aquí la descripción de la imagen Imagen: https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica

Un tiempo de respuesta negativo obviamente no tiene sentido. ¿Cómo se debe interpretar la parte de la distribución normal que está encerrada en el recuadro rojo?

Datos de muestra con promedio similar ~202 desviación estándar ~337:

100
100
200
150
70
90
110
80
150
70
190
110
130
100
100
1500

14 votos

¿Por qué has asumido una distribución normal?

6 votos

Esto significa que la hipótesis sobre la distribución normal del tiempo de respuesta es pobre. Si su software tiene el parámetro "distribución", puede intentar con "Poisson".

0 votos

Tal vez intenta lognormal

12voto

luka5z Puntos 1524

Has asumido una distribución normal para unos datos que no pueden ser negativos. No tiene sentido en absoluto. Puedes usar en cambio una distribución lognormal. Se utiliza en el modelo Black-Scholes para fijar precios en opciones. (Los precios de las acciones no pueden ser negativos)

Obviamente, no puedo decirte si tu muestra se ajusta a tal distribución si no tengo acceso al conjunto de datos completo.

r-script:

require(MASS)
hist(x, freq=F)
fit<-fitdistr(x,"log-normal")$estimate
lines(dlnorm(0:max(x),fit[1],fit[2]), lwd=3)

(x es un vector de muestra)

enter image description here

Obviamente, tu muestra es demasiado pequeña aquí.

0 votos

Para dar seguimiento a la pregunta del título, ¿cómo se puede interpretar la desviación estándar si la distribución no es normal? Por ejemplo, ¿hay algún significado en la desviación estándar calculada en muestras de una distribución logarítmica?

2 votos

@R.M. La desviación estándar es una medida de dispersión. Tiene la misma interpretación independientemente de la distribución. La desviación estándar te informa cuánto se "extienden" los datos, en promedio, desde su media cuando se extraen de una distribución particular. Solo tienes que mirar la definición: $SD(X)=\sqrt{\mathbb{E}(X-\mathbb{E}X)^2}$. Observa que $Y=(X-\mathbb{E}X)^2$ es otra variable aleatoria que describe la distancia al cuadrado de $X$ desde su media. Si calculas $\mathbb{E}Y$, sabrás cuánto es en promedio esta distancia. Tomamos la raíz cuadrada para normalizar (volver a la escala original, no al cuadrado).

3voto

Matthew Scouten Puntos 2518

Como han mencionado otros, la distribución normal no tiene mucho sentido aquí. A veces utilizamos una distribución normal, a pesar de la posibilidad de valores negativos que no tienen sentido, cuando la probabilidad de tales valores bajo la distribución normal es muy pequeña. Pero aquí la desviación estándar es mayor que la media, por lo que esa probabilidad no es pequeña en absoluto (alrededor de $1/4$).

Un vistazo a tus datos sugiere que una distribución de colas pesadas podría ser apropiada: gran parte de la desviación estándar proviene de ese valor tan grande de $1500$.

2voto

m0j0 Puntos 181

Puedes calcular la raíz cuadrada de la suma ponderada de los cuadrados de las diferencias respecto a la media muestral para cualquier conjunto de datos. Todo lo que hace este cálculo es decirte qué tan dispersos están los datos.

Pero, como sospechabas, decir que este conjunto de datos sigue una distribución normal probablemente sea un sinsentido.

2voto

user21820 Puntos 11547

Hay otro problema que las otras respuestas no están abordando. En aplicaciones como esta a menudo no estás interesado en la desviación estándar, ya que es una estadística no robusta con un punto de falla del 0%, lo que significa que para un tamaño de muestra grande, cambiar una fracción despreciable de los datos puede resultar en un cambio arbitrario en el valor de la estadística. En su lugar, considera usar los cuantiles, siendo comunes los rangos intercuartílicos, que son estadísticas más robustas. Específicamente, el cuantil del $25$-ésimo y $75$-ésimo ambos tienen un punto de falla del 25%, porque necesitas cambiar al menos el 25% de los datos para afectarlos arbitrariamente.

Esto es particularmente importante en tu consideración, debido a una serie de factores:

  1. Los retrasos en la comunicación a menudo son causados por eventos únicos que resultan en un tiempo de inactividad en lugar de un retraso normal, y por supuesto, esos tiempos de inactividad son muy largos en comparación. Por ejemplo, piensa en cortes de energía, fallas de servidores, incluso sabotajes...

  2. Incluso si no hay tiempos de inactividad en tus datos, otros factores podrían tener un impacto significativo en tus mediciones que son completamente irrelevantes para tu aplicación. Por ejemplo, otros procesos en segundo plano podrían ralentizar tu aplicación, o el almacenamiento en caché de la memoria podría estar mejorando la velocidad para algunas pero no para todas las ejecuciones. Incluso podría haber actividad de hardware ocasional que afecta la velocidad de tu aplicación solo de vez en cuando.

  3. Por lo general, la gente juzga la capacidad de respuesta de un sistema basándose en el caso promedio, no en el promedio de todos los casos. La mayoría aceptará que una operación podría fallar por completo en una minoría de los casos y nunca devolver una respuesta. Un excelente ejemplo es la solicitud HTTP. Una pequeña pero no nula proporción de paquetes se caen completamente de internet y la solicitud tendría un tiempo de respuesta teóricamente infinito. Obviamente a la gente no le importa y simplemente presionan "Actualizar" después de un rato.

0 votos

Muy adecuado.

0 votos

@A.S.: ¡Gracias! Siempre me sorprende que la gente no parezca enseñar estadísticas como éstas, aunque de hecho se usan en la práctica. Otra buena cosa es que los cuantiles siempre existen y pueden estimarse incluso si la media no lo hace, lo mismo para el rango intercuantil. ¡Incluso hay teoremas similares al TCL para los cuantiles! Aún así, ninguno de mis profesores de estadística mencionó siquiera los cuantiles en el análisis estadístico!

1 votos

Pocos académicos practican y para los teóricos la varianza es muy conveniente para operar analíticamente, por lo que recibe la mayor atención en cursos no aplicados. Lo que encontré más útil acerca de tu publicación no fue tanto una sugerencia para usar cuantiles (hay otras estadísticas robustas) sino toda la información personalizada relevante para el rendimiento del sistema físico/cliente real. Esto es lo que debería guiar la elección de estadísticas/métricas ya que realizar cualquier análisis de datos más allá de hacer histogramas antes de detallar/considerar al máximo las peculiaridades del sistema en cuestión es inútil y posiblemente engañoso...//

1voto

Clement C. Puntos 16603

El problema aquí es que recurres a la distribución más famosa, la distribución normal, para interpretar tus resultados. Esta no es la única y, en tu caso, es una elección pobre: en efecto, la distribución normal es simétrica alrededor de su media y tiene soporte $\mathbb{R}$; en tu caso, una distribución asimétrica que ponga masa de probabilidad solo en los reales positivos tendría más sentido, si realmente quieres comparar con un modelo "conocido" de distribuciones de probabilidad.

(Cabe destacar que la noción de varianza no depende de la distribución normal, ni de ninguna distribución en particular.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X