2 votos

¿Distribución de la variable muestreada a partir de una distribución acotada?

Es la primera vez que hago una pregunta, pero he aprendido mucho leyendo los mensajes anteriores :)

Digamos que tengo un gimnasio con 10000 socios, por lo que cada día tendré una distribución del tiempo que han pasado en el gimnasio. Obviamente, está limitada por abajo por 0. Si tomo a la persona del percentil 80 y la sigo durante un año, ¿qué distribución obtendré?

No estoy seguro de si debería ser una distribución normal centrada en el tiempo que ha pasado hoy. ¿Qué tal el percentil 1 o el 99? Dado que el tiempo está delimitado por 0, es probable que el percentil 1 no forme una distribución normal, y el percentil 99 probablemente sea un valor atípico y tampoco.

Me encantaría recibir algunas indicaciones sobre la mejor manera de razonar esta cuestión. Gracias.

6voto

manku Puntos 111

Para muestras de tamaño pequeño o moderado, cada uno de los distintos estadísticos de orden de una distribución tiende a tener una distribución de forma diferente. Si se observa la (versión actual) del Wikipedia artículo sobre estadísticas de orden verá funciones de densidad de varias estadísticas de orden de una distribución exponencial; eso está en la esquina superior derecha del artículo.

Estadística de orden de una distribución uniforme. Más adelante, el artículo dice que el $k$ estadístico de orden de una muestra de tamaño $n$ de $\mathsf{Unif}(0,1)$ tiene la distribución $\mathsf{Beta}(k, n+1-k).$ Para una muestra de tamaño $n = 4,$ la figura siguiente muestra las funciones de densidad de las cuatro estadísticas de orden.

enter image description here

Como puede verse en el enlace de Wikipedia, existe una fórmula para las FDA de las distribuciones de los distintos estadísticos de orden de una población dada. A veces, como en el caso de una población uniforme, los resultados son fáciles de derivar y calcular.

Máximo de muestras normales. A veces, puede ser más fácil hacer una simulación. La distribución del máximo de una muestra de tamaño $n = 20$ de una distribución normal estándar se simula a continuación. Como se puede ver, no es normal.

set.seed(505)
x = replicate(10^5, max(rnorm(20)))
mean(x);  sd(x)
[1] 1.867599
[1] 0.5230468
summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  0.139   1.501   1.825   1.868   2.188   4.944 

enter image description here

En términos más generales. Sin embargo, existe una especie de "Teorema Central del Límite" para cuantiles de muestras grandes de una amplia variedad de distribuciones. Las condiciones son que el cuantil no puede ser el máximo ni el mínimo, y que la función de densidad de la distribución de la población debe ser positiva en el cuantil en cuestión.

Así, en particular, la mediana (percentil 50) de una muestra de tamaño 125 de $\mathsf{Exp}(1)$ es casi normal.

set.seed(1234)
x = replicate(10^5, median(rexp(125)))
mean(x);  sd(x)
[1] 0.6970988
[1] 0.08989155
summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3727  0.6342  0.6932  0.6971  0.7552  1.1954 

enter image description here

3voto

Zizzencs Puntos 1358

La respuesta corta es "no lo sabemos, depende de la distribución del tiempo". BruceET en su respuesta (+1) dio algunos ejemplos.

Para tu caso particular, y por lo que sé de gimnasios, es probable que la distribución del tiempo que pasas en un gimnasio sea muy impar. No sólo está limitada por 0, sino que habrá muchos 0s. Luego habrá una larga cola derecha, pero también con un límite superior algo blando: casi nadie pasa más de 700 horas al año en el gimnasio, excepto quizá los culturistas profesionales, que suelen ir a gimnasios especializados.

Creo que la forma de enfocar esto es simular varias distribuciones para el tiempo que se pasa en el gimnasio y ver qué se obtiene.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X