7 votos

Sumas de variables aleatorias normales

Consideremos una muestra de n rvs normales independientes. Me gustaría identificar una forma sistemática de calcular la probabilidad de que la suma de un subconjunto de ellos sea mayor que la suma del resto de rvs. Un caso de ejemplo: Población de peces. Media: 10 kg, stdv: 3 kg. Pesco cinco peces (n=5). ¿Cuál es la probabilidad de que dos peces pesen más que el resto de los tres peces? Los pasos que se pueden seguir es calcular la prob para cada combinación de peces y luego utilizar la fórmula de exclusión de inclusión para su unión. ¿Hay algo más inteligente? Nota: si se consideraran cuatro peces la probabilidad de que dos de ellos pesen más que los otros dos debería ser uno. ¿Cómo se podría calcular esto inmediatamente? Gracias por las respuestas.

1 votos

Sin duda, podrías hacer una simulación.

0 votos

@whuber - Das una gran respuesta asumiendo que tenemos un dos específico en mente (o elegimos dos al azar). Mi pase inicial en la lectura pensó que estaba preguntando acerca de si había algún subconjunto de 2 tal que la suma era mayor que el restante (como lo demuestra su afirmación de que si había 4 peces entonces la probabilidad sería 1) en cuyo caso nos gustaría mirar a la distribución de los dos más grandes frente a la distribución de los restantes y tendría que bucear en las estadísticas de orden. La simulación sugiere que en esta situación la probabilidad es aproximadamente de 0,464.

1 votos

@Dason Gracias por señalarlo: es una interpretación muy plausible y que no había concebido. También explica por qué Peter sugería la simulación, porque es un problema mucho más complicado. Creo que tienes razón en lo que respecta a la estadística de orden, porque podemos replantear el problema preguntando "¿cuál es la probabilidad de que la suma de los $k$ más grande de $n$ supera la suma de los valores de $n-k$ los más pequeños?" Aunque podemos escribir el valor como una integral, en general requiere una evaluación numérica y rápidamente se vuelve onerosa como $n$ crece.

7voto

jldugger Puntos 7490

Su ejemplo sugiere que no sólo los $n$ variables $X_1,X_2,\ldots,X_n$ independientes, también tienen la misma distribución Normal. Sean sus parámetros $\mu$ (la media) y $\sigma^2$ (la varianza) y supongamos que el subconjunto está formado por $k$ de estas variables. También podríamos indexar las variables para que $X_1,\ldots, X_k$ son este subconjunto.

La pregunta pide que se calcule la probabilidad de que la suma de los primeros $k$ variables es igual o superior a la suma del resto:

$$p_{n,k}(\mu,\sigma) = \Pr(X_1+\cdots+X_k \ge X_{k+1}+\cdots+X_n ) = \Pr(Y \le 0)$$

donde

$$Y = -(X_1+\cdots+X_k) + (X_{k+1}+\cdots+X_n).$$

$Y$ es una combinación lineal de variables normales independientes y, por tanto, tiene una distribución normal, pero ¿cuál? Las leyes de la expectativa y la varianza nos dicen inmediatamente

$$E[Y] = -k\mu + (n-k)\mu = (n-2k)\mu$$

y

$$\operatorname{Var}(Y) = k \sigma^2 + (n-k)\sigma^2 = n\sigma^2.$$

Por lo tanto, $$Z=\frac{Y - (n-2k)\mu}{\sigma\sqrt{n}}$$ tiene una distribución Normal estándar con función de distribución $\Phi,$ por lo que la respuesta es

$$p_{n,k}(\mu,\sigma) = \Pr(Y \le 0) = \Pr\left(Z \le -\frac{(n-2k)\mu}{\sigma\sqrt{n}}\right) = \Phi\left(-\frac{(n-2k)\mu}{\sigma\sqrt{n}}\right).$$

En la pregunta, $n=5,k=2,\mu=10,$ y $\sigma=3,$ de donde

$$p_{5,2}(10,3) = \Phi\left(-\frac{(5-2(2))10}{3\sqrt{10}}\right)\approx 0.0680186.$$


Generalización

Poco hay que cambiar en este análisis, incluso cuando el $X_i$ tienen distribuciones normales diferentes o incluso están correlacionadas: sólo hay que suponer que tienen una $n$ -variable de distribución Normal para asegurar que su combinación lineal sigue teniendo una distribución Normal. Los cálculos se realizan de la misma manera y dan como resultado una fórmula similar.


Consulte

Un comentarista sugirió resolver esto con una simulación. Aunque eso no sería una solución, es una forma decente de comprobar una solución rápidamente. Así, en R podríamos establecer las entradas de la simulación de forma arbitraria como

n <- 5
k <- 2
mu <- 10
sigma <- 3
n.sim <- 1e6 # Simulation size
set.seed(17) # For reproducible results

y simular dichos datos y comparar las sumas con estas dos líneas:

x <- matrix(rnorm(n*n.sim, mu, sigma), ncol=n)
p.hat <- mean(rowSums(x[, 1:k]) >= rowSums(x[, -(1:k)]))

El postprocesamiento consiste en encontrar la fracción de conjuntos de datos simulados en los que una suma supera a la otra y compararla con la solución teórica:

se <- sqrt(p.hat * (1-p.hat) / n.sim)
p <- pnorm(-(n-2*k)*mu / (sigma * sqrt(n)))
signif(c(Simulation=p.hat, Theory=p, `Z-score`=(p.hat-p)/se), 3)

La salida en este caso es

Simulation     Theory    Z-score 
    0.0677     0.0680    -1.1900

La concordancia es estrecha y la pequeña puntuación z absoluta nos permite atribuir la discrepancia a fluctuaciones aleatorias más que a un error en la derivación teórica.

0 votos

También podemos suponer sin pérdida de generalidad que $\sigma=1$ ; intuitivamente, podemos calcular todo en términos de $\frac {\mu}{\sigma}$

0 votos

@Acccumulation Eso es correcto y es una buena forma de proceder. De hecho, este hecho se deduce inmediatamente de la observación de que se puede establecer arbitrariamente la unidad de medida de manera que $\sigma=1$ sin cambiar el problema. Me pareció conveniente no tener que explicar esto porque no simplificaba sensiblemente el análisis.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X