Su ejemplo sugiere que no sólo los $n$ variables $X_1,X_2,\ldots,X_n$ independientes, también tienen la misma distribución Normal. Sean sus parámetros $\mu$ (la media) y $\sigma^2$ (la varianza) y supongamos que el subconjunto está formado por $k$ de estas variables. También podríamos indexar las variables para que $X_1,\ldots, X_k$ son este subconjunto.
La pregunta pide que se calcule la probabilidad de que la suma de los primeros $k$ variables es igual o superior a la suma del resto:
$$p_{n,k}(\mu,\sigma) = \Pr(X_1+\cdots+X_k \ge X_{k+1}+\cdots+X_n ) = \Pr(Y \le 0)$$
donde
$$Y = -(X_1+\cdots+X_k) + (X_{k+1}+\cdots+X_n).$$
$Y$ es una combinación lineal de variables normales independientes y, por tanto, tiene una distribución normal, pero ¿cuál? Las leyes de la expectativa y la varianza nos dicen inmediatamente
$$E[Y] = -k\mu + (n-k)\mu = (n-2k)\mu$$
y
$$\operatorname{Var}(Y) = k \sigma^2 + (n-k)\sigma^2 = n\sigma^2.$$
Por lo tanto, $$Z=\frac{Y - (n-2k)\mu}{\sigma\sqrt{n}}$$ tiene una distribución Normal estándar con función de distribución $\Phi,$ por lo que la respuesta es
$$p_{n,k}(\mu,\sigma) = \Pr(Y \le 0) = \Pr\left(Z \le -\frac{(n-2k)\mu}{\sigma\sqrt{n}}\right) = \Phi\left(-\frac{(n-2k)\mu}{\sigma\sqrt{n}}\right).$$
En la pregunta, $n=5,k=2,\mu=10,$ y $\sigma=3,$ de donde
$$p_{5,2}(10,3) = \Phi\left(-\frac{(5-2(2))10}{3\sqrt{10}}\right)\approx 0.0680186.$$
Generalización
Poco hay que cambiar en este análisis, incluso cuando el $X_i$ tienen distribuciones normales diferentes o incluso están correlacionadas: sólo hay que suponer que tienen una $n$ -variable de distribución Normal para asegurar que su combinación lineal sigue teniendo una distribución Normal. Los cálculos se realizan de la misma manera y dan como resultado una fórmula similar.
Consulte
Un comentarista sugirió resolver esto con una simulación. Aunque eso no sería una solución, es una forma decente de comprobar una solución rápidamente. Así, en R
podríamos establecer las entradas de la simulación de forma arbitraria como
n <- 5
k <- 2
mu <- 10
sigma <- 3
n.sim <- 1e6 # Simulation size
set.seed(17) # For reproducible results
y simular dichos datos y comparar las sumas con estas dos líneas:
x <- matrix(rnorm(n*n.sim, mu, sigma), ncol=n)
p.hat <- mean(rowSums(x[, 1:k]) >= rowSums(x[, -(1:k)]))
El postprocesamiento consiste en encontrar la fracción de conjuntos de datos simulados en los que una suma supera a la otra y compararla con la solución teórica:
se <- sqrt(p.hat * (1-p.hat) / n.sim)
p <- pnorm(-(n-2*k)*mu / (sigma * sqrt(n)))
signif(c(Simulation=p.hat, Theory=p, `Z-score`=(p.hat-p)/se), 3)
La salida en este caso es
Simulation Theory Z-score
0.0677 0.0680 -1.1900
La concordancia es estrecha y la pequeña puntuación z absoluta nos permite atribuir la discrepancia a fluctuaciones aleatorias más que a un error en la derivación teórica.
1 votos
Sin duda, podrías hacer una simulación.
0 votos
@whuber - Das una gran respuesta asumiendo que tenemos un dos específico en mente (o elegimos dos al azar). Mi pase inicial en la lectura pensó que estaba preguntando acerca de si había algún subconjunto de 2 tal que la suma era mayor que el restante (como lo demuestra su afirmación de que si había 4 peces entonces la probabilidad sería 1) en cuyo caso nos gustaría mirar a la distribución de los dos más grandes frente a la distribución de los restantes y tendría que bucear en las estadísticas de orden. La simulación sugiere que en esta situación la probabilidad es aproximadamente de 0,464.
1 votos
@Dason Gracias por señalarlo: es una interpretación muy plausible y que no había concebido. También explica por qué Peter sugería la simulación, porque es un problema mucho más complicado. Creo que tienes razón en lo que respecta a la estadística de orden, porque podemos replantear el problema preguntando "¿cuál es la probabilidad de que la suma de los $k$ más grande de $n$ supera la suma de los valores de $n-k$ los más pequeños?" Aunque podemos escribir el valor como una integral, en general requiere una evaluación numérica y rápidamente se vuelve onerosa como $n$ crece.
0 votos
@whuber - de acuerdo. Definitivamente es un problema mucho más difícil de obtener una solución directa y para los casos con muestras más grandes un cálculo aproximado a través de la simulación podría ser el enfoque más razonable.
0 votos
Muchas gracias a todos. Me refería a cualquier subconjunto de dos que pesan más que el resto, como Dason señaló. ¡Gracias whuber de todos modos! Creo que las estadísticas de orden no son el camino a seguir ya que, por ejemplo, el 1er y 3er elemento podría ser mayor que la suma del 2do 4to y 5to, en caso de un outliar muy alto en la primera posición.
1 votos
@Manos - Si la suma de la 1ª y la 3ª fuera mayor que la 2ª, la 4ª y la 5ª... entonces la suma de la 1ª y la 2ª sería mayor que la 3ª, la 4ª y la 5ª y también cumpliría tu criterio. Así que en términos de comprobar si cualquier subconjunto cumple los criterios sólo tenemos que comprobar si la suma de la parte superior k es algo mayor que la parte inferior n-k.
0 votos
@Dason. ¡Por supuesto que tienes razón! Un poco avergonzado. Así que probablemente las estadísticas de orden podría proporcionar una manera formal?
1 votos
Podrían. Pero como menciona Whuber no es un problema fácil. La simulación te daría un resultado mucho más fácil para cualquier situación específica.