11 votos

Probabilidad de elementos únicos en cada uno de los conjuntos múltiples "S" muestreados con probabilidad uniforme

Supongamos que tengo un conjunto $P$ con $||P|| = N$ elementos únicos. También tengo $S$ multisets, $(m_1, ..., m_S)$ de cardinalidad $L$ que se compone de elementos en $P$ elegido con probabilidad uniforme. Llamamos a un conjunto múltiple, $m_i$ , "distinguible" si contiene al menos $k$ elementos, aunque no necesariamente distintos, que no existen en ningún otro multiconjunto.

¿Cuál es la probabilidad de que todos los $M$ ¿los conjuntos múltiples son "distinguibles" según esta definición?


Editar - ¡Me interesaría mucho conocer las soluciones aproximadas a esta cuestión! Al igual que en mi "pregunta sobre la relación limitada de dos tipos de bolas", aquí $N$ es al menos un orden de magnitud mayor que $S$ , $S > 10^3$ y $L$ es relativamente pequeño (alrededor de $10^1$ a $10^2$ más o menos).


Mientras que el muestreo $S$ veces con la sustitución del conjunto $P$ podemos afirmar que la probabilidad de no elegir nunca el mismo elemento dos veces es

Prob( $S$ selecciones únicas de $P$ ) = $\prod \frac{(N - i)}{N}$ para $i = 0$ a $(S - 1)$

O, de forma equivalente, podemos calcular la probabilidad de que el subconjunto de $S$ elementos muestreados contiene todos los elementos únicos como:

Prob( $S$ selecciones únicas de $P$ ) = $\prod ((1-(\frac{1}{N - i}))^{(S - 1 - i)})$ para $i = 0$ a $(S - 1)$


Quizás podamos simplificar este problema restringiendo $k$ para incluir sólo elementos distintos, es decir, elementos que existen sólo una vez en todos los $(m_1, ..., m_S)$ ¿conjuntos múltiples?

Esto es lo que estoy pensando...

Primero calculamos la probabilidad de que uno de los $(S*L)$ elementos en conjuntos múltiples $(m_1, ..., m_S)$ , seleccionada entre $P$ por muestreo con reemplazo, se selecciona sólo una vez. Esto debería ser equivalente a lanzar $(S*L)$ bolas en $||P|| = N$ y hallar la probabilidad de que una bola determinada se encuentre por sí misma en un recipiente.

De la página 95 de "Probabilidad y computación": Randomized algorithms and probabilistic analysis" de Michael Mitzenmacher y Eli Upfal, cuando lanzamos $(S*L)$ bolas en $N$ la probabilidad de que un recipiente específico tenga exactamente $r$ bolas, P[ $r$ ], se da como:

P[ $r$ ] = ${S*L \choose r}$ $(\frac{1}{N})^r(1-\frac{1}{N})^{(S*L-r)}$

Por linealidad de la expectativa, ahora podemos escribir una expresión para el número esperado de bolas que existen en un recipiente de $r$ bolas como: E[X] = $N*r*{S*L \choose r}$ $(\frac{1}{N})^r(1-\frac{1}{N})^{(S*L-r)}$ . Como las bolas corresponden aquí a los elementos en la primera descripción del problema, esto implica que podemos escribir P[el elemento es único] como:

P[el elemento es único] = $\frac{N*(1)*{S*L \choose 1}(\frac{1}{N})^1(1-\frac{1}{N})^{(S*L-1)}}{S*L}$

Volviendo al problema original, tenemos $S$ multisets que llenamos con $L$ elementos, y queremos calcular la probabilidad de que al menos $k$ de los elementos de cada multiconjunto son únicos (es decir, en todos los multiconjuntos no aparecen en ninguna otra parte). Como ahora conocemos la probabilidad de que un elemento concreto sea único, podemos utilizar la fórmula binomial para hallar la probabilidad de que un subconjunto concreto contenga al menos $k$ elementos únicos:

P[al menos 'k' elementos en un determinado multiconjunto, $m_i$ son únicos] = 1 - $\sum^{k-1}_{i=0}[ {L \choose i}$ * P[elemento es único] $^i$ * (1 - P[elemento es único]) $^{L-i}$ ]

Por la linealidad de la expectativa: $S$ * P[al menos 'k' elementos en un determinado multiconjunto, $m_i$ son únicos] ~ # de conjuntos múltiples con al menos $k$ elementos únicos.

Para calcular la probabilidad de que todos los conjuntos múltiples contengan al menos $k$ elementos únicos, deberíamos poder escribir la probabilidad como P[al menos 'k' elementos en un multiset particular, $m_i$ son únicos] $^S$


Estos cálculos parecen acercarse a los datos simulados, pero siguen estando fuera y me imagino que esto será un accidente. Agradecería cualquier ayuda para encontrar lo que probablemente son fallos obvios. ¿Hay problemas de independencia, etc.?

2voto

marcospereira Puntos 3144

Este es el caso $k=1$ , $S=2$ y $L\le 2$ .

Así que tenemos dos jugadores que eligen cada uno $L$ muchos números entre $N$ posibilidades, con el objetivo de elegir algo que el otro no elija.

Así que dejemos $p_{N,L}$ sea la probabilidad de que tengan éxito, es decir, que los dos conjuntos sean distinguibles.

Entonces $p_{2,L}=2^{-(2L-1)}$ para $L>0$ y para cualquier $N$ , $p_{N,1}=1-\frac1N$ .

Para encontrar $p_{N,2}$ razonamos de la siguiente manera:

El jugador I elige números distintos $a,b$ con probabilidad $1-\frac1N$ , en cuyo caso el jugador II elige adecuadamente con probabilidad $1-(2/N)^2$ (no $a,a$ o $b,b$ o $a,b$ o $b,a$ ).

El jugador II elige números no diferenciados $a,a$ con probabilidad $1/N$ en cuyo caso el jugador II elige adecuadamente (no $a$ ) con probabilidad $(1-\frac1N)^2$ .

En general, entonces $p_{3,2}=14/27$ y $$p_{N,2}=(1-\frac1N)(1-(\frac2N)^2)+\frac1N(1-\frac1N)^2$$ $$=1-4/N^2+4/N^3-2/N^2+1/N^3\approx 1-6/N^2.$$

Así que $p_{N,2}\rightarrow 1$ un poco más rápido que $p_{N,1}$ como era de esperar.

1voto

Thomas Kalinowski Puntos 2553

Editar: Cambié las fórmulas ligeramente, haciéndolas (esperemos) correctas, pero aún menos útiles.


Creo que puedo escribir una expresión para la probabilidad, pero no estoy seguro de su utilidad. Mi interpretación del experimento aleatorio es que un $(S\times L)$ -matriz sobre $\{1,\ldots,N\}$ se genera eligiendo las entradas de forma independiente y uniforme, y el $i$ -año es simplemente el $i$ -fila de esta matriz. Evidentemente, la probabilidad de cada matriz es $1/N^{S\cdot L}$ . Una matriz es buena si cada fila contiene al menos $k$ entradas que no aparecen en ninguna otra fila, por lo que queda contar las matrices buenas. Toda matriz buena induce una partición $\{1,\ldots,N\}=B_0\cup B_1\cup\cdots\cup B_S$ , donde $B_i$ para $i=1,\ldots,S$ es el conjunto de elementos que sólo aparecen en la fila $i$ (en particular, no vacío). El número de matrices buenas correspondientes a una partición dada es $$\prod_{i=1}^S\sum_{K=k}^L\binom{L}{K}S(K,|B_i|)\cdot |B_i|!\cdot |B_0|^{L-K},$$ donde $S(K,|B_i|)$ es el número de Stirling del segundo tipo, el número de particiones de un $K$ -configurar en exactamente $|B_i|$ subconjuntos no vacíos.

Ahora dejemos que $\mathcal P$ sea el conjunto de particiones ordenadas $N=b_0+b_1+\cdots+b_S$ de $N$ en enteros no negativos, donde $1\leqslant b_i\leqslant L$ para $i=1,\ldots,S$ . Entonces el número total de matrices buenas puede escribirse como $$A=\sum_{(b_0,b_1,\ldots,b_S)\in\mathcal P}\binom{N}{b_1}\binom{N-b_1}{b_2}\cdots\binom{N-b_1-\cdots-b_{S-1}}{b_S}\prod_{i=1}^S\sum_{K=k}^L\binom{L}{K}S(K,b_i)\cdot b_i!\cdot b_0^{L-K},$$ y su probabilidad es $A/N^{S\cdot L}$ .

0voto

T.J. Crowder Puntos 181

Sus anotaciones son demasiado complicadas y hacen más difícil ver una solución. Tus problemas mezclan problemas conocidos como:

La paradoja del cumpleaños El problema clásico de la ocupación La Paradoja de los N Ensayos de Ion Saliu

Puede encontrar soluciones y también SOFTWARE aquí: http://saliu.com/monty-paradox.html http://saliu.com/birthday.html http://saliu.com/theory-of-probability.html

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X