4 votos

Probabilidad condicional de un suceso dados dos sucesos independientes

Me encuentro con un interesante problema de probabilidad. He tenido $16$ sujetos divididos aleatoriamente en $4$ diferentes habitaciones, cada una de ellas con $4$ asientos. Los sujetos recibieron una pregunta para resolver. Sabíamos por nuestra experiencia anterior que sólo $50\%$ la gente podría resolver el problema. En nuestro estudio, $7$ de la $16$ gente resolvió y los demás no pudieron resolver el problema. Se registraron tanto los tiempos de resolución como los de abandono. Así que había $7$ tiempos de resolución ordenados y $9$ ordenó entregar los tiempos en nuestras manos al final del estudio.

Un sujeto es seleccionado para la siguiente tarea si es el $1st$ solucionador de la $1st$ sala o la $2nd$ solucionador de la $2nd$ sala o la $1st$ solucionador de la $3rd$ sala o la $2nd$ solucionador de la $last$ habitación. Por lo tanto, constituye algo parecido a una muestra de conjunto clasificada para la siguiente tarea.

Quiero averiguar la probabilidad de que el sujeto que tiene el 5º tiempo de resolución ordenado fuera el $1st$ solucionador de la $1st$ sala o la $2nd$ solucionador de la $2nd$ sala o la $1st$ solucionador de la $3rd$ sala o la $2nd$ solucionador de la $last$ habitación. Es decir, quiero averiguar la probabilidad del $5th$ ordenado que se seleccionará para la siguiente tarea.

Ahora, para ser seleccionado para la siguiente tarea debe ser capaz de resolver el problema y la sala a la que pertenece debe tener al menos el número necesario de solucionadores. Digamos que un sujeto fue asignado aleatoriamente a la sala $4$ , resolvió el problema, pero la habitación $4$ sólo tenía $1$ solucionador, entonces no podría ser seleccionado para la siguiente tarea. Así, la probabilidad para el sujeto ordenado $i$ parece,

$P(\text{i gets selected for the next task}|\text{i solves the problem}, \text{the room it falls into has at least necessary number of solvers}).$

La probabilidad me parece $P(A|B,C)$ donde los eventos $B$ y $C$ son independientes. ¿Cómo puedo calcular con precisión la probabilidad? Parece complicado.

¡Gracias de antemano por cualquier ayuda!

4voto

jldugger Puntos 7490

Resolvamos primero un problema relacionado, porque tiene la clave de éste.

Supongamos que $F$ es una distribución continua. (Modelará los tiempos de resolución.) Sea $X_i, i=1, \ldots, n$ y $Y_j, j=1, \ldots, m$ sean variables aleatorias iid gobernadas por $F$ . Escriba $f(n,m,k,j)$ por la posibilidad de que el $j^\text{th}$ más grande de la $Y$ es el $k^\text{th}$ mayor valor entre los dos $Y$ y $X$ 's.

Como las variables son iid, son intercambiables. Esto implica que $f(n,m,k,j)$ cuenta la proporción de permutaciones del conjunto múltiple $\{0^n, 1^m\}$ en el que

  1. La primera $k-1$ contienen exactamente $j-1$ $1$ 's. Esto puede hacerse en $\binom{k-1}{j-1}$ formas.

  2. El $k^\text{th}$ es un valor $1$ .

  3. Y por lo tanto hay exactamente $m-j$ $1$ distribuidos entre los restantes $n+m-k$ valores. Esto puede hacerse en $\binom{n+m-k}{m-j}$ formas.

El número total de estas permutaciones es $\binom{m+n}{m}$ . Por lo tanto,

$$f(n,m,k,j) = \frac{\binom{k-1}{j-1}\binom{n+m-k}{m-j}}{\binom{m+n}{m}}.$$


Solución

Establece los tiempos de resolución de los no resolutores en tiempos aleatorios mayores que cualquiera de los tiempos de resolución reales. No hay ninguna dificultad con esto porque (1) el quinto mejor solucionador, en el que nos centraremos, realmente resolvió el problema y tiene un tiempo de resolución real; y (2) sólo compararemos los tiempos de resolución de tal manera que todos los no solucionadores se sitúen por detrás de todos los solucionadores.

Que el $Y_j$ sea el $m=4$ resolver los tiempos en cualquier sala. El $X_i$ son los restantes $n=12$ resolviendo los tiempos en las otras salas.

  • La posibilidad de que el primero solucionador ( es decir , $j=1$ ) es el quinto mejor en general ( es decir , $k=5$ ) es $f(12,4,5,1)=33/364$ .

  • La posibilidad de que el segundo El solucionador es el quinto mejor en general es $f(12,4,5,2)=11/91$ .

No es posible que la quinta mejor solucionadora de la general estuviera en dos salas, pero tenía que estar en alguna sala. Por lo tanto, los eventos "el quinto mejor solucionador en general estaba en la habitación $i$ ", para $i=1,2,3,4$ son una partición exhaustiva de las posibilidades. En consecuencia, sus posibilidades se suman. Dado que en las salas 1 y 3 estamos ante el mejor solucionador y en las salas 2 y 4 ante el segundo mejor solucionador, la respuesta es

$$2f(12,4,5,1) + 2f(12,4,5,2) = 11/26 \approx 0.423.$$


Comprobación de la respuesta

El cálculo de probabilidades puede ser complicado. He comprobado el cálculo de $f$ con una enumeración exhaustiva de los $\binom{16}{4}=1820$ casos. Pero como $f$ sólo interviene indirectamente en la solución, podría ayudar a simular el propio experimento, sin omitir ningún detalle. Para ello (en R ) podemos

  • Generar siete tiempos de resolución (con runif ). Para ello utilizo una distribución uniforme, ya que la elección de la distribución no importa: sólo es relevante el supuesto de continuidad.

  • Distribuya esos tiempos al azar en cuatro salas de cuatro personas (con sample y matrix ).

  • Compruebe si el quinto menor tiempo es el menor en las salas 1 y 3 o el segundo menor en las salas 2 y 4 (con sort y %in% ).

Después de cinco segundos para realizar 10.000 iteraciones la salida (que incluye una estimación del error del doble del error estándar) es

La estimación es de 0,426 +/- 0,0099

Esto concuerda perfectamente con el resultado anterior. El código en sí puede ser de algún valor para entender la solución teórica, así que aquí está.

#
# Describe the situation.
#
n.rooms    <- 4
n.per.room <- 4
n.solved   <- 7
ranks      <- c(1,2,1,2)
k          <- 5
#
# Perform the simulation.
#
set.seed(17)
n.iter <- 1e4
n <- n.rooms * n.per.room
unsolved <- rep(NA, n-n.solved)
sim <- replicate(n.iter, {
  x <- apply(matrix(sample(c(runif(n.solved), unsolved), n), 
                    n.per.room, n.rooms), 2, sort, na.last=TRUE)
  sort(x)[k] %in% x[cbind(ranks, 1:n.rooms)]
})
#
# Report the results.
#
p.hat <- mean(sim)
cat(paste("Estimate is", round(p.hat, 3), "+/-", 
          round(2*sqrt(p.hat*(1-p.hat)/n.iter), 4)), "\n")

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X