Estoy tratando de idear un protocolo para agrupar las pruebas de laboratorio de una cohorte con el fin de obtener estimaciones de prevalencia utilizando el menor número posible de reactivos.
Suponiendo una sensibilidad y especificidad perfectas (si quieres incluirlas en la respuesta es un plus), si agrupo el material de prueba en pools de tamaño $s$ y dada una probabilidad media por debajo (no me gusta el término "real") $p$ de la enfermedad, la probabilidad de que el pool sea positivo es:
$$p_w = 1 - (1 - p)^s$$
si corro $w$ tales piscinas la probabilidad de tener $k$ pozos positivos dada una cierta prevalencia es:
$$p(k | w, p) = \binom{w}{k} (1 - (1 - p)^s)^k(1 - p)^{s(w-k)}$$
es decir $k \sim Binom(w, 1 - (1 - p)^s)$ .
Para obtener $p$ Sólo necesito maximizar la probabilidad $p(k | w, p)$ o utilizar la fórmula $1 - \sqrt[s]{1 - k/w}$ (no estoy muy seguro de lo segundo...).
Mi pregunta es, ¿cómo puedo optimizar $s$ (maximizar) y $w$ (minimizar) de acuerdo con un $p$ para tener las estimaciones más precisas, por debajo de un determinado nivel de error?