4 votos

Muestra de una distribución uniforme vs Ejemplo de distribución aleatoria

Yo podría tomar una muestra de un conjunto de m elementos de la distribución uniforme sobre un universo $U$ n >> m elementos. Alternativamente, podría seleccionar al azar de distribución de probabilidad de $\mathcal{D}$, y muestra de $m$ elementos de $\mathcal{D}$.

EDITAR (por Miguel Lugo): Cuando digo "seleccionar un aleatorio de distribución de probabilidad", me refiero a seleccionar un punto uniformemente al azar de la norma $n$-simplex: {$\{(x_1,\ldots,x_n) : x_i \geq 0, x_1+\ldots+x_n = 1\}$}.

Hacer estos dos métodos nos llevan a la misma distribución a través de mi muestra? Si no, ¿cómo se diferencian? Si algún evento (mi ejemplo se encuentra en algunas de las muestras de tamaño m) ocurre con probabilidad p se utiliza el segundo método, ¿qué puedo decir acerca de su probabilidad mediante el primer método?

7voto

Sergio Acosta Puntos 6450

Mientras que la respuesta exacta por Mark Meckes es agradable, vale la pena señalar que si en la condición de no repetición de elementos, el condicional distribuciones son iguales por simetría, y su condición de $n \gt\gt m$ está cerca de lo que usted necesita decir que las repeticiones son raros.

La repetición es mucho más común si usted elige una al azar de la ponderación y, a continuación, una muestra de que, en lugar de la muestra de manera uniforme. La condición de que $n$ es mucho mayor que $m^2$ significa que la repetición es rara en las muestras de la distribución uniforme, como el número esperado de repeticiones de pares $Y_i = Y_j$$\binom{m}{2}/n$.

Si elegimos una distribución al azar, el peso en un elemento particular sigue una distribución beta $\beta(1,n-1)$. La probabilidad de que ambas $Y_i$ $Y_y$ igual que elemento es el 2do momento, la varianza + ^2, o $(n-1)/(n^2 (n+1)) + 1/n^2 = 2/(n(n+1))$. La probabilidad de $P_2(Y_i=Y_j)=2/(n+1)$ en lugar de $1/n$, y se espera que el número de repeticiones de pares es $2\binom{m}{2}/(n+1)$.

Si $n \gt\gt m^2$, hay una baja total de la variación de la distancia. Deje $\Delta$ ser la diagonal donde hay al menos una repetición. $|P_2(S)-P_1(S)| \le 2P_2(\Delta) \le 4\binom{m}{2}/(n+1) < 2m^2/n$.

3voto

EBGreen Puntos 981

Es verdad que las cosas cambian para m>1; estaba pensando de manera descuidada.

Suponga $U=\{1,\ldots,n\}$ para la concreción. Si $Y_1,\ldots,Y_m$ son elegidos de forma independiente y de manera uniforme de $U$, entonces para cualquier $k_1,\ldots,k_m\in U$, que por supuesto tienen $$ \Pr[Y_1=k_1,\ldots,Y_m=k_m] = \frac{1}{n^m}. $$

Por otro lado, si $x=(x_1,\ldots,x_m)$ es elegido de manera uniforme desde el estándar $n$-simplex y $Y_1,\ldots,Y_m$ se eligen de forma independiente de acuerdo a $x$, luego $$ \Pr[Y_1=k_1,\ldots,Y_m=k_m] = \mathbb{E}\Pr[Y_1=k_1,\ldots,Y_m=k_m|x] = \mathbb{E}\prod_{i=1}^m x_{k_i} = \frac{n!}{(n+r)!}\prod_{j=1}^n r_j!, $$ donde$r_j = \#\{1\le i \le m : k_i=j\}$$r=r_1 + \cdots r_n$. Esta última expectativa puede ser demostrado ser más fácilmente desde Lema 1 en este documento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X