10 votos

¿Cómo puedo saber qué tipo de distribución es?

He muestreado un proceso del mundo real, los tiempos de ping de la red. El "tiempo de ida y vuelta" se mide en milisegundos. Los resultados se representan en un histograma:

enter image description here

Los tiempos de ping tienen un valor mínimo, pero una larga cola superior.

Quiero saber de qué distribución estadística se trata y cómo estimar sus parámetros.

Aunque la distribución no es una distribución normal, todavía puedo mostrar lo que estoy tratando de lograr.

La distribución normal utiliza la función

enter image description here

con los dos parámetros

  • μ (media)
  • σ 2 (variante)

Estimación de parámetros

Las fórmulas para estimar los dos parámetros son:

alt text

Aplicando estas fórmulas contra los datos que tengo en Excel, obtengo:

  • μ = 10,9558 (media)
  • σ 2 \= 67,4578 (varianza)

Con estos parámetros puedo trazar el " normal " sobre mis datos muestreados:

enter image description here

Obviamente no es una distribución normal. Una distribución normal tiene una cola superior e inferior infinitas, y es simétrica. Esta distribución no es simétrica.


¿Qué principios aplicaría, qué diagrama de flujo, para determinar de qué tipo de distribución se trata?

Y para ir al grano, ¿cuál es la fórmula de esa distribución y cuáles son las fórmulas para estimar sus parámetros?


Quiero obtener la distribución para poder obtener el valor "medio", así como la "dispersión":

enter image description here

En realidad estoy trazando el histrograma en el software, y quiero superponer la distribución teórica:

enter image description here

Etiquetas: muestreo, estadística, estimación de parámetros, distribución normal

2 votos

Por curiosidad, ¿has probado a hacer esta pregunta en stats.stackexchange.com ? (Creo que tu pregunta es apropiada aquí también, pero puede que obtengas más/diferentes respuestas allí).

0 votos

Voy a copiarlo allí; yo y mi 1 representante.

0 votos

Tengo entendido que hay una grande La literatura sobre cosas como los tiempos de ping de la red y la respuesta está probablemente en un documento en alguna parte.

3voto

alexandrul Puntos 1190

Suena muy parecido a las condiciones que se esperan para una distribución Erlang para mí- también se parece mucho a uno...

Las distribuciones Erlang modelan los tiempos entre ocurrencias en los procesos poisson y se utilizan con frecuencia como parte de los modelos de tráfico de Internet.

Mi interpretación es la siguiente: como sitio que devuelve una señal, uno procesa y envía cosas para un usuario determinado en un proceso aproximadamente poisson (el "límite" aproximado de los ensayos bernoilli p-> cosas para el usuario 1-p -> cosas para un usuario diferente) y el tiempo de espera para que se produzca uno se distribuye, por tanto, Erlangwise, con un desplazamiento a la derecha (para dar cuenta del envío de la señal por parte del usuario). Esto da la forma que tienes arriba :)

Editar: Esto debería ser Erlang-2 si no está ya claro, ya que la recepción y el envío son dos sucesos poisson de la misma distribución que dependen (como se ha indicado anteriormente) del tráfico [Es decir: el suceso 1- el servidor tiene un bit libre para procesar la recepción, el suceso 2- el ordenador tiene un bit libre para procesar el envío].

0 votos

+1, pero podrían ser más de 2, ya que a menudo hay routers intermedios entre los ordenadores. (de ahí la belleza de la red)

0 votos

¿Quizás entonces, por el bien de la interpolación, sólo ajustarlo a una gamma con algún real 2<k<3?

3voto

hitec Puntos 824

Yo votaría por un Distribución de Poisson con un desplazamiento constante.

Un razonamiento que se puede hacer a mano es que el tiempo de ida y vuelta se debe a un desplazamiento constante que es el tiempo de ida y vuelta en el mejor de los casos, suponiendo que no hay retrasos debidos a las colas de los routers (= velocidad de propagación de la onda sobre la distancia física, + tiempo mínimo de procesamiento), y que los "eventos raros" (véase la página de la wikipedia) corresponden a los retrasos de las colas en uno o más routers que componen la ruta de la red.

En cuanto a la estimación de parámetros, no estoy familiarizado con cómo hacerlo para muestras tomadas de una (supuesta) distribución de Poisson, pero estoy seguro de que podrías encontrar algo en Internet.

aha, aquí vamos: http://en.wikipedia.org/wiki/Poisson_distribution#Parameter_estimation -- se podría utilizar después de restar el mínimo de un gran número de muestras.


drat, estúpido de mí, glosé el hecho de que Poisson = distribución de probabilidad discreta.

0 votos

+1: Como los tiempos de respuesta se miden en ms, ¿cuál es el problema de que Poisson sea discreto?

0 votos

porque hay una diferencia entre un proceso de valor discreto y un proceso de valor continuo cuya salida está cuantificada. en cualquier caso, al menos es una aproximación a la realidad.

2voto

Issac Kelly Puntos 3014

La distribución a la que se recurre para cosas como los tiempos de espera es la Exponencial . El tuyo no parece exactamente igual debido a la pequeña cola inferior, pero me inclinaría por atribuirlo a un error de ruido/medición. (La suposición de la independencia de los eventos es casi seguramente errónea para los tiempos de ping, pero probablemente siga siendo tu mejor opción).

Además, probablemente sería mejor que hicieras este tipo de preguntas en el sitio de estadísticas .


Editar: Como señala Srikant Vadali El Distribución Gamma es más general y puede dar cuenta de una cola corta no despreciable, por lo que puede ser una opción más apropiada. Sin embargo, es más fácil estimar el parámetro de la exponencial.

2 votos

Oh, Dios mío, acabo de filtrar entre las docenas de sitios de Stack para encontrar la "versión ficticia" de matemáticas. (a diferencia de la esnobista mathoverflow). ¿Por qué crees que los tiempos de ida y vuelta del ping no son independientes? Mide el tiempo de respuesta del red en ese momento.

0 votos

@Ian Bueno, yo esperaría que hubiera alguna correlación sistemática en la latencia de la red - es decir, si mi ping ahora es lento, mi ping en 1 segundo es probable que también lo sea. Pero tal vez sea más volátil de lo que creo. (En cuanto a lo de las estadísticas, como dice @Isaac, no está fuera de tema aquí, sólo que ahí puede haber conocimientos más especializados).

0 votos

@Ian Si quieres que se asimile que estás midiendo algo a través de Internet, vas a tener que codificar esa información matemáticamente. El exponencial es sólo una aproximación rápida.

2voto

Joe Fontana Puntos 703

Desde el comentarios sobre stats.stackexchange Parece que no te importa demasiado la distribución, sino sólo una curva bonita para superponer en tu gráfico. En cuyo caso, algún tipo de spline es su mejor opción. Utilice algún tipo de curvas con asíntotas en y=0 para sus segmentos superior e inferior, y lo que mejor se ajuste en el medio.

Si realmente te importa la distribución subyacente:
El primer paso sería utilizar cualquier conocimiento externo que se tenga para caracterizar la distribución. Por ejemplo:
El ping de la red es una suma de tiempos de espera independientes (los nodos individuales de la red). Esto sugiere un Gamma La distribución de /Erlang si cada uno de estos pasos es idéntico, y una distribución más compleja si no lo son.
El ping es una medida del tiempo que transcurre hasta que el ordenador del otro extremo responde a su petición, cuya probabilidad es proporcional al tiempo transcurrido. Esto sugeriría una Weibull distribución.
El tiempo de ping es la acumulación de un gran número de factores que tienen todos un efecto multiplicador en el resultado. Entonces, un log-normal la distribución sería lo mejor. No sé lo suficiente sobre redes como para decir nada sobre la exactitud de ninguno de los modelos anteriores, y también es perfectamente probable que el tiempo de ping siga algún otro modelo en el que no he pensado. Sólo quería demostrar la idea: que hay que pensar en qué factores contribuyen a lo que se intenta modelar, y cómo interactúan.

Y, por supuesto, la distribución no tiene que ser necesariamente conocida. En ese caso, lo anterior no le llevará muy lejos. En este caso, es posible que quieras elaborar tu propia distribución empírica, para lo que existen diversos métodos. Los más comunes son tomar tus medidas como la distribución (siempre que tengas un número suficientemente grande) o tomar cada uno de esos puntos de datos y tratarlo como el centro de alguna distribución uniforme/normal/otra, y sumar todo con la escala apropiada.

Una vez que conozca el tipo de distribución, también podrá utilizar el conocimiento del dominio para estimar algunos de sus parámetros. Por ejemplo, puede adivinar el número de exponenciales que se suman basándose en la forma de la red. También puede utilizar la media y la varianza que ha medido para formar estimaciones de los parámetros de la distribución. Por ejemplo, si pensara que su distribución es una Gamma(3,θ), entonces podría utilizar su varianza medida para estimar θ=4,74182454 basándose en nuestra fórmula conocida para la varianza de una distribución Gamma.

Una vez que haya adivinado una distribución, querrá probar su bondad de ajuste.

Para ello, el método estándar sería aplicar la muestra única Prueba de Kolmogorov-Smirnov .

Otras pruebas potencialmente aplicables son las siguientes Cramer-von-Mises , Anderson-Darling o chi-cuadrado pruebas.

Esto está incompleto, añadiré más cosas más adelante.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X