2 votos

Percentil 90 del número de bolas en la caja más llena

Esta es una versión simplificada de un problema de modelización de la probabilidad aplicada. Creo que lo he resuelto, pero me pregunto si hay un enfoque más elegante que el mío:

Hay 10 cajas y 200 bolas. En cada prueba se seleccionan exactamente cuatro cajas al azar y se coloca exactamente una bola en cada una. Por lo tanto, hay 50 pruebas en el juego. Las cajas de cajas tienen la misma capacidad. ¿Cuál debe ser esa capacidad para que en el 90% de las juegos de 50 pruebas no se desborde ninguna caja?

Respuesta: Obviamente más de 20; usando el binomio, 28 parece ser suficiente.

2voto

Michael Seifert Puntos 521

El proceso de llenado de una caja cualquiera puede modelarse como un paseo aleatorio que comienza en $n = 0$ donde en cada paso $n$ aumenta en 1 con probabilidad $p = 0.4$ (ya que la probabilidad de que se elija una casilla cualquiera en un ensayo determinado es de 4 sobre 10) o $n$ se mantiene igual con la probabilidad $1 - p = 0.6$ . La probabilidad de acabar con $n$ bolas en cualquier caja al final de 50 ensayos es entonces $$ P(n) = { 50 \choose n } p^n (1 - p)^{50 - n}, $$ y la probabilidad de tener más de $n$ bolas en una caja es $$ P_o(n) = \sum_{m = n+1}^{50} { 50 \choose m } p^m (1 - p)^{50 - m}. $$

Ahora, queremos encontrar el valor de $n$ para los que hay al menos un 90% de posibilidades de que ninguno de las 10 cajas se desborda. Dado que la probabilidad de que una caja de capacidad $n$ el desbordamiento es $P_o(n)$ la probabilidad de que ninguna de las diez cajas se desborde es* $$ (\text{prob. of no overflows}) = (1 - P_o(n))^{10} \geq \frac{9}{10} \qquad P_o(n) \leq 1 - \sqrt[10]{\frac{9}{10}} = 0.0104807... $$

A partir de aquí, se pueden conectar varias opciones de $n$ en Wolfram Alpha y encontrar que $P_o(27) \approx 0.016$ y $P_o(28) \approx 0.007$ . Así que la respuesta parece ser 28.

Alternativamente, se puede aproximar la distribución binomial por una distribución normal. Cada ensayo añade una media de $\bar{\mu} = 0.4$ bolas a cada recipiente, con una varianza de $\bar{\sigma}^2 = 0.24$ . Esto significa que después de $N = 50$ ensayos, la distribución del número de bolas $n$ en un contenedor determinado será $$ P(n) \, dn = \frac{1}{\sqrt{2 \pi N \bar{\sigma}^2}} \exp \left[ - \frac{(n - N \bar{\mu})^2}{ 2 N \bar{\sigma}^2} \right] dn $$ Se trata de una distribución normal con una media de $N \bar{\mu} = 20$ , una varianza de $N \bar{\sigma}^2 = 12$ y una desviación estándar de $\sigma = \sqrt{12}$ . Por la lógica anterior, queremos conocer el argumento de la función de error $\text{erf}(x)$ tal que $$ \frac{1}{2} + \frac{1}{2}\text{erf}(x) = \sqrt[10]{\frac{9}{10}} \approx 0.989519... $$ que se puede encontrar para ser $x = 1.6325...$ (gracias de nuevo a Wolfram Alpha.) Así, según esta aproximación, hay un 90% de posibilidades de que no haya desbordamientos si el tamaño de las cajas es mayor que $20 + 1.6325 \sigma = 26.55...$ . I piense en que la corrección de continuidad lo eleva a 27,05, lo que implica que realmente se necesita un tamaño de caja de 28, pero hace tiempo que no lo uso; en cualquier caso, esto es sólo una aproximación, y obviamente se acerca bastante al resultado exacto de la distribución binomial.

(La ventaja de este tipo de cálculo es que sólo requiere una búsqueda de valores en una tabla de valores para la función de error, en lugar de una serie de cálculos de una suma que implique coeficientes binomiales; así que podría ser mejor para una respuesta rápida y sucia, y ciertamente sería más fácil si no tuviera un ordenador a mano).


*La única advertencia aquí es que no estoy 100% seguro de que la probabilidad de que una caja se desborde sea independiente de la probabilidad de que cualquiera de las otras cajas se desborde. Me parece plausible, pero no he llegado a un argumento riguroso.

0voto

BruceET Puntos 7117

Comentario ampliado y corregido. Para el Problema como se dijo anteriormente la independencia es más importante de lo que pretendía. (Para simplificar el problema aplicado, he reducido el número de cajas y el número de ensayos del problema original aplicado, con resultados imprevistos).

Suponiendo que las cajas son independientes da efectivamente 28 como percentil 99 para el número máximo $W$ de bolas en la caja más llena. Sin embargo, una simulación de la situación real descrita, muestra que el percentil 99 de $W$ es 31, y que la correlación de los números de bolas en dos cajas diferentes es de aproximadamente $r = -0.11.$

En la simulación que se muestra a continuación, utilizando el software estadístico R, el juego se "juega" 10.000 veces. Para cada jugada del juego, la matriz MAT tiene $50$ filas (ensayos) y $10$ columnas (casillas). Cada elemento de la matriz es 1 o 0 según la caja haya recibido una bola en el ensayo correspondiente, o no. Todas las filas suman 4.

set.seed(1776)  # change seed for different simulation
games = 10000;  w = r =  numeric(games)
for (k in 1:games) 
{
 trials=50;  boxes=10  
 MAT=matrix(rep(0, trials*boxes), nrow=trials)
 for (i in 1:trials) {
   MAT[i,] = sample(c(1,1,1,1,0,0,0,0,0,0), boxes) } 
 w[k] = max(colSums(MAT))
 r[k] = cor(MAT[,1],MAT[,2]) 
}
quantile(w, .99)
## 99% 
##  31 
mean(r)
## -0.1139328

Las simulaciones repetidas dieron exactamente 31 para el percentil 99 de $W,$ y casi una correlación media de -0,11 entre los contenidos de la primera y la segunda columna. La figura siguiente muestra la distribución simulada de distribución de $W.$

enter image description here

Gracias a @MichaelSiefert y @RossMillikan por sus útiles discusiones de este problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X