Un modelo para esta situación es poner 61000 ( $n$ ) en una urna, de las cuales 23000 ( $n_1$ ) están etiquetados como "A". 15000 ( $k$ ) se extraen al azar sin sustitución . De estos, $m$ tienen la etiqueta "A". ¿Cuál es la probabilidad de que $m \ge 10000$ ?
El número total de muestras posibles es igual al número de $k$ -subconjuntos de elementos de un $n$ -set, $\binom{n}{k}$ . Todos tienen la misma probabilidad de salir sorteados, por hipótesis. Sea $i \ge 10000$ . El número de muestras posibles con $i$ A es el número de subconjuntos de un $n_1$ -set teniendo $i$ A, multiplicado por el número de subconjuntos de un $n-n_1$ -set teniendo $k-i$ no A; es decir, $\binom{n_1}{i}\binom{n-n_1}{k-i}$ . Suma de todos los posibles $i$ y dividiendo por el azar de cada muestra se obtiene la probabilidad de observar un solapamiento de $m = 10000$ o superior:
$$\Pr(\text{overlap} \ge m) = \frac{1}{\binom{n}{k}} \sum_{i=m}^{\min(n_1,k)} \binom{n_1}{i}\binom{n-n_1}{k-i}.$$
Esta respuesta es exacta. Para un cálculo rápido se puede expresar (en forma cerrada) en términos de funciones hipergeométricas generalizadas los detalles de esta expresión pueden ser proporcionados por un programa de álgebra simbólica como Mathematica. La respuesta en este caso concreto es $3.8057078557887\ldots \times 10^{-1515}$ .
También podemos utilizar una aproximación Normal . Codificando las A como 1 y las no A como 0, como de costumbre, la media de la urna es $p = 23000/61000 \sim 0.377$ . La desviación típica de la urna es $\sigma = \sqrt{p(1-p)}$ . Por lo tanto, el error estándar de la proporción observada, $u = 10000/15000 \sim 0.667$ es
$$se(u) = \sigma \sqrt{(1 - \frac{15000-1}{61000-1})/15000} \sim 0.003436.$$
(véase http://www.ma.utexas.edu/users/parker/sampling/woreplshort.htm ). Así pues, la proporción observada es $z = \frac{u - p}{se(u)} \sim 84.28$ errores estándar mayores de lo esperado. Obviamente, el valor p correspondiente es bajo (se calcula en $1.719\ldots \times 10^{-1545}$ ). Aunque la aproximación Normal ya no es muy precisa en valores de z tan extremos (¡se desvía 30 órdenes de magnitud!), sigue proporcionando una orientación excelente.