Estoy modelando una variable aleatoria ( $Y$ ) que es la suma de unas ~15-40k variables aleatorias Bernoulli independientes ( $X_i$ ), cada una con una probabilidad de éxito diferente ( $p_i$ ). Formalmente, $Y=\sum X_i$ donde $\Pr(X_i=1)=p_i$ y $\Pr(X_i=0)=1-p_i$ .
Estoy interesado en responder rápidamente a preguntas como $\Pr(Y<=k)$ (donde $k$ se da).
Actualmente, utilizo simulaciones aleatorias para responder a estas preguntas. Saco al azar cada $X_i$ según su $p_i$ , entonces suma todos los $X_i$ para obtener $Y'$ . Repito este proceso unos cuantos miles de veces y devuelvo la fracción de veces $\Pr(Y'\leq k)$ .
Obviamente, esto no es totalmente preciso (aunque la precisión aumenta en gran medida a medida que aumenta el número de simulaciones). Además, parece que tengo suficientes datos sobre la distribución para evitar las simulaciones de uso. ¿Se te ocurre alguna forma razonable de obtener la probabilidad exacta $\Pr(Y\leq k)$ ?
p.d.
Utilizo Perl y R.
EDITAR
A raíz de las respuestas, he pensado que sería necesario hacer algunas aclaraciones. En breve describiré el escenario de mi problema. Dado es un genoma circular con circunferencia c
y un conjunto de n
rangos asignados a ella. Por ejemplo, c=3*10^9
y ranges={[100,200],[50,1000],[3*10^9-1,1000],...}
. Observe que todos los rangos son cerrados (ambos extremos son inclusivos). También hay que tener en cuenta que sólo tratamos con números enteros (unidades enteras).
Estoy buscando regiones en el círculo que no están cubiertas por el n
rangos mapeados. Así que para comprobar si un rango dado de longitud x
en el círculo está subcubierto, pruebo la hipótesis de que el n
Los rangos se asignan de forma aleatoria. La probabilidad de que un rango mapeado de longitud q>x
cubrirá completamente el rango de longitud dado x
es (q-x)/c
. Esta probabilidad se hace bastante pequeña cuando c
es grande y/o q
es pequeño. Lo que me interesa es el número de rangos (de n
) que cubren x
. Así es como Y
se forma.
Pongo a prueba mi hipótesis nula frente a la alternativa unilateral (infracobertura). También hay que tener en cuenta que estoy probando múltiples hipótesis (diferentes x
longitudes), y asegúrese de corregirlo.