5 votos

Cálculo de la expectativa de la distribución hipergeométrica con muestreo sin reemplazo

Dada una población de $n$ negro y $m$ bolas verdes, el número esperado de bolas negras en una muestra aleatoria de $r$ las bolas se pueden calcular de la siguiente manera

Definimos una variable aleatoria $X_k$ tomando los valores 1 o según el $k$ -el elemento de la muestra es negro o no. Entonces $P(X_k = 1) = \frac{n}{n+m}$ y el número esperado de bolas negras en una muestra aleatoria de $r$ bolas es $\frac{nr}{n+m}$ .  Esta es la respuesta que se da en el libro de Feller (volumen 1). La razón que da Feller es "Por razones de simetría".

Pero este enfoque no me convence. ¿Cómo podemos asumir una probabilidad constante $P(X_k = 1) = \frac{n}{n+m}$ ?  El proceso de muestreo es sin reemplazo y la probabilidad de éxito cambia en cada ensayo. No entiendo lo que se quiere decir con "Por razones de simetría".

7voto

d.k.o. Puntos 4022

Dejemos que $S_k:=\sum_{i=1}^k X_i$ . Entonces para $k<n$ , \begin{align} \mathsf{P}(X_{k+1}=1)&=\sum_{i=0}^k\mathsf{P}(S_k=i)\mathsf{P}(X_{k+1}=1\mid S_k=i) \\ &=\sum_{i=0}^k\frac{\binom{n}{i}\binom{m}{k-i}}{\binom{n+m}{k}}\times\frac{n-i}{n+m-k} \\ &=\frac{n}{n+m}\sum_{i=0}^k\frac{\binom{n-1}{i}\binom{m}{k-i}}{\binom{n+m-1}{k}}=\frac{n}{n+m}. \end{align}

5voto

Leb_Broth Puntos 118

Lo siguiente parece ser un argumento más riguroso.

Creo que está de acuerdo en que $P(X_1 = 1) = \frac{n}{n+m}$ .

Entonces \begin{align}P(X_2=1) &= P(X_2=1 \mid X_1=1)P(X_1=1) + P(X_2=1 \mid X_1=0)P(X_1=0) \\ &{= \frac{n-1}{n+m-1} \cdot \frac{n}{n+m} + \frac{n}{n+m-1} \cdot \frac{m}{n+m}} \\ &= \frac{n}{n+m}, \end{align}

si simplificas la expresión de la segunda línea. Si te apetece, puedes demostrar que $P(X_k=1) = \frac{n}{n+m}$ para todos $1 \leq k \leq r$ de forma similar, por inducción (la respuesta de d.k.o es el paso de inducción).

5voto

andy.gurin Puntos 1516

La solución proviene de la linealidad de la expectativa, que se aplica incluso si las variables aleatorias no son independientes. Más adelante,

Dejemos que $X_k$ sea una variable aleatoria indicadora que es $1$ si el $k_{th}$ es negro, y $0$ si no

Ahora las bolas negras (o de cualquier otro color) no tienen preferencia de posición por lo que si se coge al azar el $k_{th}$ pelota,

$\Bbb P(X_k) = \Bbb P(X_1) = \frac {n}{n+m}$

Ahora bien, la expectativa de una variable aleatoria indicadora no es más que la probabilidad del suceso que indica, por lo que

$\Bbb E(X_k ) = \frac{n}{n+m},$

y $\Bbb E(X) = \Bbb E(X_1) + \Bbb E(X_2) + ...+\Bbb E(X_r) = \frac{rn}{n+m}$

1voto

Foobaz John Puntos 276

La secuencia $(X_1, \dotsb, X_r)$ es intercambiable . En efecto, la distribución conjunta de los $X_i$ sólo depende del número de $X_i$ que son iguales a $1$ .

Para ver esto considere el caso $r=3$ . Entonces $$ P(X_1=1, X_2=0, X_3=1)=\frac{n(m)(n-1)}{(n+m)(n+m-1)(n+m-2)}=P(X_2=1, X_3=0, X_1=1). $$

utilizando la descomposición $P(X_1=1, X_2=0, X_3=1)=P(X_1=1)P(X_2=0\mid X_1=1)P(X_3=1\mid X_2=0, X_1=1)$ para la primera igualdad y algo similar para la segunda. Más sencillamente, estamos considerando el número de bolas rojas y negras que quedan después de cada sorteo y multiplicando las probabilidades correspondientes.

En general, para cualquier tupla binaria $(x_1, x_2, x_3)$ la probabilidad $P(X_1=x_1, \dotsc, X_3=x_3)$ será una fracción con el mismo denominador que la anterior y un numerador de la forma $n(n-1)\dotsb(n-a+1)\times m(m-1)\dotsb(m-u+1)$ donde $a$ es el número de unos en la secuencia $(x_1, \dotsc, x_3)$ y $u$ el número de ceros. Esta probabilidad es invariable a las permutaciones de los índices del $X_i$ . Podemos argumentar de forma similar en el caso general para un $r\geq 0$ .

En particular, esto significa que todas las distribuciones marginales del $X_i$ son iguales entre sí. Por ejemplo $$ P(X_2=1)=\sum P(X_2=1, X_1=a_1, \dotsc, X_r=a_r)=\sum P(X_1=1, X_2=a_1, \dotsc, X_r=a_r)=P(X_1=1) $$ donde en la segunda igualdad utilizamos la intercambiabilidad, intercambiando los índices de $X_1$ y $X_2$ y fijando todos los demás índices. Pero por supuesto $$ P(X_1=1)=\frac{n}{n+m}. $$ El número de bolas negras extraídas en los r sorteos $X$ se encuentra entonces por la linealidad de la expectativa. En efecto, $X=\sum_{i=1}^r X_i$ de donde $$ EX=\sum_{i=1}^r EX_i=\sum_{i=1}^r P(X_i=1)=\frac{rn}{n+m} $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X