Para recapitular (y poner la notación en una forma con la que pueda trabajar fácilmente), suponemos que tenemos una lista de $N = mk$ variables iid Bernoulli, $$T=(X_{11},X_{12},\ldots,X_{1k},X_{21},X_{22},\ldots,X_{2k}, \ \ldots,\ X_{m1},X_{m2},\ldots,X_{mk}),$$ es decir, las variables $X_{ij}$ donde $1\leq i\leq m$ y $1\leq j\leq k$ . Dejamos que $p = P(X_{ij} = 1)$ y asumir los valores de $m$ , $k$ y $p$ son conocidos.
Dejemos que $Y_i = X_{i1} + X_{i2} + \cdots + X_{ik},$ así que $Y_i$ es una variable binomial con parámetros $k$ y $p$ . Utilizando la notación $I_A$ para una cantidad que es $1$ si $A$ es verdadera y $0$ si $A$ es falso, definimos $$F(T) = \sum_{i=1}^m I_{Y_i > 0} \quad \mbox{and} \quad G(T) = \sum_{i=1}^m Y_i.$$ Eso es, $F(T)$ es el número de variables $Y_i$ tal que al menos uno de los variables Bernoulli $X_{i1},X_{i2},\ldots,X_{ik})$ es $1$ , y $G(T)$ es el número total de variables Bernoulli que tienen valor $1$ .
Dado un valor determinado de $F(T),$ decir, $F(T) = c,$ y dado un valor $x$ , debemos encontrar la probabilidad de que $G(T) = x.$ Es decir, queremos la probabilidad condicional $P(G(T) = x \mid F(T) = c).$ Esta probabilidad obedece a la fórmula
$$ P(G(T) = x \mid F(T) = c) = \frac{P((G(T) = x) \cap (F(T) = c))}{P(F(T) = c)}.$$
Así que ahora sólo nos queda calcular el numerador y el denominador en el lado derecho de esa ecuación.
El denominador es más sencillo. Tenemos $P(Y_i = 0) = (1 - p)^k,$ por lo que la variable $I_{Y_i > 0}$ es a su vez una variable Bernoulli con parámetro $p_1 = 1 - (1 - p)^k.$ Esto significa que $F(T)$ tiene una distribución binomial y $$P(F(T) = c) = \binom mc p_1^c (1 - p_1)^{m-c} = \binom mc (1 - (1 - p)^k)^c (1 - p)^{n-ck}.$$
Para el numerador, contemos los posibles eventos. Hay $\binom mc$ diferentes opciones de qué combinación de $Y_i$ debe ser distinto de cero. Para cada elección de $c$ variables no nulas $Y_i$ , que contiene un total de $ck$ de las variables Bernoulli $X_{ij},$ exactamente $x$ de esos $ck$ las variables toman el valor $1$ y el resto son todos $0$ .
El número de combinaciones de $x$ elementos seleccionados de $ck$ artículos es $\binom{ck}{x}$ . Pero si incluimos todo dichas combinaciones, a menos que $x$ está especialmente cerca de $ck$ es posible que uno de los $Y_i$ que debían ser distintos de cero serán será cero porque no elegimos ninguno de los $X_{ij}$ a partir de la cual $Y_i$ se construyó. Por lo tanto, tenemos que excluir todos los casos en los que eso ocurra. Hay $c$ formas de elegir una de las $Y_i$ sea cero, y entonces hay $\binom{ck-k}{x}$ formas de seleccionar $x$ variables Bernoulli de entre las opciones restantes. Si restamos todas estas opciones, nos queda $$\binom{ck}{x} - c \;\binom{ck-k}{x}.$$ Pero considere la posibilidad de que cuando seleccionamos el $x$ Variables de Bernoulli, dos de la $Y_i$ se pusieron a cero. Hay $\binom c2$ pares de $Y_i$ para los que esto podría ocurrir, y para cada par hay $\binom{ck-2k}{x}$ para seleccionar el $x$ variables de las que aún están disponibles. Cada una de esas posibilidades se dedujo dos veces del recuento total en la expresión anterior, así que tenemos que volver a añadir una de esas posibilidades: $$\binom{ck}{x} - c \;\binom{ck-k}{x} + \binom c2 \binom{ck-2k}{x}.$$ Pero ahora hemos vuelto a añadir algunos casos en los que tres de la $Y_i$ son cero. Siguiendo el principio de inclusión-exclusión, restamos los casos en los que tres $Y_i$ son cero, añadir los casos en los que cuatro $Y_i$ son cero, y así sucesivamente, hasta que haya menos de $x$ Variables Bernoulli a elegir entre las restantes no nulas $Y_i$ para un total de
$$\binom{ck}{x} - c \;\binom{ck-k}{x} + \binom c2 \binom{ck-2k}{x} - \binom c3 \binom{ck-3k}{x} + - \cdots$$ $$= \sum_{h=0}^{\lfloor c - x/k\rfloor} (-1)^h \binom ch \binom{ck-hk}{x}.$$
El más cercano $x$ es $ck$ Cuanto menos términos tengamos que calcular.
Cada una de las posibilidades que cuenta esa última suma es sólo una forma particular en la que $x$ de la $n$ las variables originales de Bernoulli tienen valor $1$ y todo el resto tiene valor $0$ la probabilidad de una de estas combinaciones de $x$ variables es $p^x(1-p)^{n-x}.$ Además, la suma anterior sólo contaba con las posibilidades de uno de los $\binom mc$ opciones de las que $Y_i$ son distintos de cero. Por lo tanto,
$$P((G(T) = x) \cap (F(T) = c)) = \binom mc p^x(1-p)^{n-x} \sum_{h=0}^{\lfloor c - x/k\rfloor} (-1)^h \binom ch \binom{ck-hk}{x}.$$
Si se introducen los valores de $P((G(T) = x) \cap (F(T) = c))$ y $P(F(T) = c)$ en la ecuación de $P(G(T) = x \mid F(T) = c)$ , los factores de $\binom mc$ cancelar, y habrá alguna cancelación de una potencia de $(1-p)$ en la parte superior e inferior, pero aparte de eso no he encontrado mucho que se pueda simplificar. Sin embargo, es una cantidad computable.
0 votos
Este título no es muy descriptivo - si alguien tiene sugerencias se lo agradecería
0 votos
"Lista" podría funcionar mejor que "conjunto" en este contexto; el orden parece importar (no lo hace en un conjunto) y se puede contar el número de ocurrencias de $1$ (un conjunto contiene $1$ o no lo hace). Cada objeto que produce un valor es un ensayo Bernoulli; el número de $1$ s en una de sus agrupaciones más pequeñas es entonces una variable aleatoria $Y_i$ con una distribución binomial; $G(T) = \sum Y_i,$ y $F(T)$ es el número de elementos no nulos $Y_i$ . El problema parece resoluble si los ensayos Bernoulli son iid con probabilidad $p$ y sabemos $p$ pero no con la información dada.
0 votos
Para un título, quizás "distribución condicional de la suma de variables binomiales dado el número de variables con valores distintos de cero".
0 votos
Gracias. Actualizaré - ahora que lo recuerdo, creo que debería ser razonable decir que el p es conocido.