Esta es la motivación de mi pregunta: Supongamos que tenemos $n$ entradas en una bolsa, y dibujamos $k$ de ellos uniformemente al azar sin reemplazo. Ahora, repita el mismo procedimiento de forma independiente (mismo $n$ entradas, dibujar $k$ UAR sin reemplazo). Me puede mostrar de forma directa que, si $S$ es el número de la superposición de las entradas entre los dos las muestras, a continuación,$\mathbb{P}\left(S=j\right)={k \choose j}\left(\prod_{i=0}^{j-1}\frac{k-i}{n-i}\right)\left(\prod_{i=0}^{k-j-1}\frac{n-k-i}{n-j-i}\right)$.
Ahora, mi pregunta es una generalización de este, que es básicamente, tengo curiosidad sobre lo que le sucede a esta superposición cuando no tenemos la misma probabilidad de dibujo de cada billete.
Para investigar esto, mi enfoque es asignar "pesos" a las entradas mediante la creación de duplicados Para concretar más, supongamos que tenemos $g$ grupos, cada uno con un número diferente de entradas $n_{i}$, donde cada una de las $n_{i}$ corresponde a la "peso" queremos asignar para un determinado tipo de ticket. Ahora podemos dibujar $k$ boletos de manera uniforme en al azar y sin reemplazo, pero en lugar de mirar el número de boletos individuales que son compartidos entre dos muestras, estoy curiosidad sobre el número de grupos que se comparten, que podemos denotar por $R$. Es decir, si ambas muestras incluyen los boletos de grupo $i$ pero los grupos de todas las demás entradas en el ejemplo 1 son diferentes a partir de los grupos de todas las demás entradas en el ejemplo 2, entonces tenemos $R=1$.
¿Cómo puedo encontrar a $\mathbb{P}\left(R=j\right)$? Para decirte la verdad Estoy teniendo problemas incluso para encontrar $\mathbb{P}\left(R=0\right)$. También, si esta es una muy conocida pregunta de probabilidad, le agradecería que alguien darme el nombre de la misma, por lo que pude aprender un poco más en el mío propio. Gracias!
Actualización:
He escrito algunos conceptos básicos de la R código que puede ser utilizado para simular este tipo de problema y comprobar cualquiera de los resultados analíticos de las personas tienen:
nGroups <- 3
nPerGroup <- c(4, 2, 5)
tickets <- vector(length = sum(nPerGroup))
curPos <- 1
for(i in 1:nGroups){
tickets[curPos:(curPos + nPerGroup[i] - 1)] <- rep(i, nPerGroup[i])
curPos <- curPos + nPerGroup[i]
}
Group.Overlap <- function(tickets, k){
sample1 <- sample(tickets, size = k)
sample2 <- sample(tickets, size = k)
sharedGroups <- intersect(unique(sample1), unique(sample2))
return(length(sharedGroups))
}