Dejemos que $q_i=P(Y_i=1)$ . Las variables $q_i$ se denominan parámetros molestos y para tratarlos tenemos que ponerles una prioridad y luego hacer un promedio sobre ellos.
Para ser más precisos, el modelo es el siguiente: tenemos parámetros $p_1,\dots,p_N$ y $q_1,\dots,q_N$ . Sabemos que el $p_i$ pero no sabemos el $q_i$ y por lo tanto debe poner una distribución a priori sobre ellos, digamos con p.d.f. $p(q_1,\dots,q_N)$ . Entonces el $X_i$ y $Y_i$ se han generado como variables aleatorias Bernoulli con parámetros $p_1,\dots,p_N,q_1,\dots,q_N$ . Por último, hemos elegido el $x_i$ para que todos sean iguales a la $X_i$ o todos sean iguales al $Y_i$ . Diga $H$ es verdadera si son iguales a la $X_i$ y falso si son iguales al $Y_i$ s. También necesitamos una probabilidad a priori sobre $H$ , digamos que $P(H)=1/2$
Entonces queremos calcular $P(H|x_1,\dots,x_N)$ . Aplicando el Teorema de Bayes se obtiene
$$P(H|x_1,\dots,x_N)=\frac{P(x_1,\dots,x_N|H)P(H)}{P(x_1,\dots,x_N|H)P(H)+P(x_1,\dots,x_N|¬H)P(¬H)}$$
Ahora, $P(H)=P(¬H)=1/2$ y $P(x_1,\dots,x_N|H)$ se puede calcular a partir de $p_1,\dots,p_N$ . Así que queda por calcular $P(x_1,\dots,x_N|¬H)$ . Si supiéramos el $q_i$ podríamos hacer esto inmediatamente. Es decir, sabemos cómo calcular $P(x_1,\dots,x_N|¬H,q_1,\dots,q_N)$ . Entonces aplicamos la "ley de la probabilidad total" para obtener:
$$P(x_1,\dots,x_N|¬H)=\int P(x_1,\dots,x_N|¬H,q_1,\dots,q_N)p(q_1,\dots,q_N)\mathrm{d}q_1\dots\mathrm{d}q_N$$
La única pregunta que queda es qué distribución previa $p(q_1,\dots,q_N)$ para elegir. Si no supiera absolutamente nada sobre el $q_i$ entonces diría que tenerlas i.i.d. distribuidas uniformemente en $[0,1]$ sería una buena descripción de mi (falta de) conocimiento. Es decir, elegiría $p(q_1,\dots,q_N)=1$ . Pero si tiene información adicional sobre el $q_i$ Por ejemplo, si se sospecha que pueden estar correlacionados entre sí, habría que elegir una prioridad diferente. $p(q_1,\dots,q_N)$ para describir su estado de conocimiento.