6 votos

Probabilidad de elegir un elemento en el muestreo aleatorio ponderado sin reemplazo

Considere el problema del muestreo aleatorio $k$ distintos elementos de una población de $n$ artículos sin reemplazo. Si todos los artículos tienen el mismo peso, entonces la probabilidad de que un artículo específico esté entre los $k$ los elementos seleccionados es $ \binom {n-1}{k-1} / \binom {n}{k}$ .

Ahora supongamos que los artículos son ponderados y la probabilidad de cada artículo que se selecciona está determinado por su peso relativo:

Entrada: Establecer $N=\{1, \dots ,n\}$ artículos con pesos $W=\{w_1, \dots ,w_n\}$
Salida: Set $S$ de $k$ artículos seleccionados al azar sin reemplazo

Repita k veces

  • probabilidad de $i \in N \setminus S$ siendo seleccionado = $ \frac {w_i}{ \sum_ {j \in N \setminus S}w_j}$

  • seleccionar al azar un elemento de $N \setminus S$ y añadirlo a $S$ .

¿Cuál es la probabilidad de que un elemento específico esté entre los $k$ elementos seleccionados en un muestreo aleatorio ponderado sin reemplazo?

1voto

BruceET Puntos 7117

Comentario (y la solución de un simple caso especial.) Esto ha estado aquí por un tiempo, aparentemente sin comentarios útiles. Esto parece ser una generalización de un "hipergeométrico multivariado distribución.

Podrías empezar con un conjunto simplificado de pesos. Deje que una urna contenga bolas etiquetadas del 1 al 8. Y supongamos que sus respectivos pesos son $w = (2, 2, 1, 1, 1, 1, 1, 1)/10.$ Si se retira $k = 2$ bolas de la urna sin reemplazo, ¿cuál es la probabilidad la pelota se etiqueta con la palabra "Bola" $1$ '?

Consigue 1 en el primer sorteo: $P( \text {1 on 1st}) = (2/10)(8/8) = .2.$

Consigue 1 en el segundo sorteo: O bien 21 o algo que no sea 1 o 2 en la primera, luego 1 en el segundo. $P( \text {2 then 1}) = (2/10)(2/8) = .05.$ $P( \text {3 then 1}) = (1/10)(2/9) = 2/90 \approx 0.0222.$ $P( \text {1 on 2nd}) = 0.05 + 6(2/90) \approx 0.05 + 0.1333 = 0.1833.$

Finalmente, $P( \text {1 in two draws}) \approx 0.2 + 0.1833 = 0.3833.$

Incluso este simple problema resultó sorprenderme por su complejidad y falta de simetría. Pero tal vez, se pueden encontrar patrones para simplificar resultados más complicados.


El software estadístico R hace un muestreo aleatorio ponderado de manera que le permitiría comprobar algunas de sus soluciones analíticas. Como prototipo, aquí está un simulación del simple ejemplo de arriba. Los resultados son principalmente con una precisión de tres lugares.

m = 10^6;  d1 = d2 = numeric(m)
n = 2;  pop = 1:8;  w = c(2,2,1,1,1,1,1,1)/10
for (i in 1:m)  {
   draw = sample(pop, n, prob=w)
   d1[i] = draw[1];  d2[i] = draw[2]  }
mean(d1 ==1 | d2 ==1)  # '|' signifies union
## 0.383483

round(table(d1)/m,3)
## d1
##     1     2     3     4     5     6     7     8 
## 0.200 0.199 0.100 0.100 0.100 0.100 0.100 0.100 
round(table(d2)/m,3)
## d2
##     1     2     3     4     5     6     7     8 
## 0.184 0.184 0.105 0.105 0.106 0.106 0.105 0.105 

round(table(d1,d2)/m,3)
##   d2
## d1     1     2     3     4     5     6     7     8
##  1 0.000 0.050 0.025 0.025 0.025 0.025 0.025 0.025
##  2 0.050 0.000 0.025 0.025 0.025 0.025 0.025 0.025
##  3 0.022 0.022 0.000 0.011 0.011 0.011 0.011 0.011
##  4 0.022 0.022 0.011 0.000 0.011 0.011 0.011 0.011
##  5 0.022 0.022 0.011 0.011 0.000 0.011 0.011 0.011
##  6 0.022 0.022 0.011 0.011 0.011 0.000 0.011 0.011
##  7 0.022 0.022 0.011 0.011 0.011 0.011 0.000 0.011
##  8 0.022 0.022 0.011 0.011 0.011 0.011 0.011 0.000

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X