4 votos

Generalización de la pregunta de probabilidad básica

Esta es la motivación de mi pregunta: Supongamos que tenemos $n$ entradas en una bolsa, y dibujamos $k$ de ellos uniformemente al azar sin reemplazo. Ahora, repita el mismo procedimiento de forma independiente (mismo $n$ entradas, dibujar $k$ UAR sin reemplazo). Me puede mostrar de forma directa que, si $S$ es el número de la superposición de las entradas entre los dos las muestras, a continuación,$\mathbb{P}\left(S=j\right)={k \choose j}\left(\prod_{i=0}^{j-1}\frac{k-i}{n-i}\right)\left(\prod_{i=0}^{k-j-1}\frac{n-k-i}{n-j-i}\right)$.

Ahora, mi pregunta es una generalización de este, que es básicamente, tengo curiosidad sobre lo que le sucede a esta superposición cuando no tenemos la misma probabilidad de dibujo de cada billete.

Para investigar esto, mi enfoque es asignar "pesos" a las entradas mediante la creación de duplicados Para concretar más, supongamos que tenemos $g$ grupos, cada uno con un número diferente de entradas $n_{i}$, donde cada una de las $n_{i}$ corresponde a la "peso" queremos asignar para un determinado tipo de ticket. Ahora podemos dibujar $k$ boletos de manera uniforme en al azar y sin reemplazo, pero en lugar de mirar el número de boletos individuales que son compartidos entre dos muestras, estoy curiosidad sobre el número de grupos que se comparten, que podemos denotar por $R$. Es decir, si ambas muestras incluyen los boletos de grupo $i$ pero los grupos de todas las demás entradas en el ejemplo 1 son diferentes a partir de los grupos de todas las demás entradas en el ejemplo 2, entonces tenemos $R=1$.

¿Cómo puedo encontrar a $\mathbb{P}\left(R=j\right)$? Para decirte la verdad Estoy teniendo problemas incluso para encontrar $\mathbb{P}\left(R=0\right)$. También, si esta es una muy conocida pregunta de probabilidad, le agradecería que alguien darme el nombre de la misma, por lo que pude aprender un poco más en el mío propio. Gracias!

Actualización:

He escrito algunos conceptos básicos de la R código que puede ser utilizado para simular este tipo de problema y comprobar cualquiera de los resultados analíticos de las personas tienen:

nGroups <- 3
nPerGroup <- c(4, 2, 5)
tickets <- vector(length = sum(nPerGroup))
curPos <- 1
for(i in 1:nGroups){
    tickets[curPos:(curPos + nPerGroup[i] - 1)] <- rep(i, nPerGroup[i])
    curPos <- curPos + nPerGroup[i]
}


Group.Overlap <- function(tickets, k){
  sample1 <- sample(tickets, size = k)
  sample2 <- sample(tickets, size = k)
  sharedGroups <- intersect(unique(sample1), unique(sample2))
  return(length(sharedGroups))
}

2voto

Alan Puntos 7273

Esto no es una pregunta estándar porque pronto se vuelve muy complicado. Por ejemplo, con dos grupos es la probabilidad de no se superpone

$$\Pr(R=0) = 2 \frac{{n_1 \choose k}{n_2 \choose k}}{{n \choose k}^2}.$$

Con tres grupos se convierte en

$$\Pr(R=0) = 2 \frac{{n_1 +n_2 \choose k}{n_3 \choose k}+{n_1 +n_3 \choose k}{n_2 \choose k}+{n_2 +n_3 \choose k}{n_1 \choose k} - {n_1 \choose k}{n_2 \choose k}-{n_1 \choose k}{n_3 \choose k}-{n_2 \choose k}{n_3 \choose k}}{{n \choose k}^2}.$$

En tu ejemplo de 11 boletos en grupos de tamaños de 4, 2 y 5 $k=2$ esto da $\Pr(R=0) = \frac{472}{3025}\approx 0.156$. Da con $k=3$ $\Pr(R=0) = \frac{8}{363}\approx 0.022$.

y se puede ampliar esto con el principio de inclusión-exclusión de grupos más. Puede hacer declaraciones similares $Pr(R=j)$ pero solo se pone feo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X