5 votos

Asymptotics de la clásica de la ocupación problema

Clásica De La Ocupación Problema. Hay $n$ distintos etiquetados bolas en una urna. $k$ de ellos de manera uniforme seleccionado con el reemplazo. ¿Cuál es la probabilidad de que la muestra contiene al menos una bola de cada tipo.

Deje $(M_1,\ldots, M_n)$ ser el vector de la cuenta de cada especie en la muestra. El vector $(M_1,\ldots, M_n)$ siguiente distribución multinomial $\operatorname{Mult}\left(k, \{\frac{1}{n},\ldots, \frac{1}{n}\}\right)$, y la probabilidad es $$ p_{k,n} = \Pr(M_1 > 0, \ldots, M_n >0) \etiqueta{1} $$ Puede ser explícitamente calculada usando la inclusión-exclusión de principio, o por la construcción de una relación de recurrencia para $p_{k,n}$: $$ p_{k,n} = \sum_{m=0}^n (-1)^m \binom{n}{m} \left(1-\frac{m}{n}\right)^k = \frac{n!}{n^k} \mathcal{S}_2\left(k, n\right) \etiqueta{2} $$ donde $\mathcal{S}_2\left(k, n\right)$ denota el número de Stirling del segundo tipo.

Ver a Brian Gladman del cuaderno de mersseneforum.org o en la sección 5.6 de los Problemas y las instantáneas desde el mundo de la probabilidad para obtener más detalles.

Para $k \ggg n$, la probabilidad de $p_{k,n}$ es muy cercano a 1 (ver DMLF para el comportamiento asintótico de la Stirling número). Estoy interesado en obtener más precisa asintótica de expansión, tal vez mediante el uso de la CT para evaluar $(1)$.

Referencias o soluciones explícitas son apreciados.

5voto

palehorse Puntos 8268

Primero: la sentencia es más general, se formuló de lanzar $k$ bolas en $n$ de las urnas, y el cálculo de la probabilidad de que no urna está vacía.

Un asintótica puede ser obtenida por un Poissonization argumento: para un gran $n,k$ el proceso es asympotically equivalente a lanzar $n$ iid variables de Poisson con $\lambda = k/n$ [*]. La probabilidad de que todos son estrictamente positivo es, en esta aproximación:

$$P(n,k) \approx (1- e^{-\lambda})^n =\left(1-\exp\left(-\frac{k}{n}\right)\right)^n$$

[*] More precisely: if $X=\{x_1, x_2 \cdots x_n\}$ is a symmetric multinomial with $\sum x_i=k$, and $S=\{y_1, y_2 \cdots y_n\}$ is iid Poisson with $E(y_i)=\lambda = k/n$, then $P(S | \sum y_i = k ) =P(X)$

Some values of $1-P$

  n    k     exact       approx        approx2
 10   30  0.370862811  0.399919706   0.391737310
 10   45  0.085332428  0.105697883   0.090006050
 10   67  0.008580587  0.012241161   0.008799062
 10  100  0.000265605  0.000453907   0.000249721
 10  150  0.000001369  0.000003059   0.000000918
 20   60  0.639394774  0.639903641   0.651552400
 20   90  0.183791028  0.200223724   0.188593703
 20  135  0.019540042  0.023158931   0.019936973
 20  202  0.000632592  0.000821271   0.000634614
 20  303  0.000003559  0.000005266   0.000003403
 30   90  0.793550984  0.783913271   0.800389319
 30  135  0.272036304  0.284758383   0.276500488
 30  202  0.031460596  0.035106950   0.031928138
 30  303  0.001037105  0.001231653   0.001045158
 30  454  0.000006205  0.000008031   0.000006140
 40  120  0.881840513  0.870330612   0.885651604
 40  180  0.350826354  0.360357908   0.354883558
 40  270  0.042236862  0.045781526   0.042723586
 40  405  0.001408318  0.001601360   0.001419115
 40  607  0.000008470  0.000010272   0.000008452
 50  150  0.932380090  0.922187956   0.934494710
 50  225  0.421119127  0.427966723   0.424774699
 50  337  0.053946062  0.057450981   0.054452003
 50  505  0.001852757  0.002051912   0.001865740
 50  757  0.000011405  0.000013297   0.000011417
 60  180  0.961304919  0.953306526   0.962474829
 60  270  0.483814133  0.488429430   0.487093918
 60  405  0.064472541  0.067880206   0.064980408
 60  607  0.002223894  0.002421147   0.002237862
 60  910  0.000013672  0.000015536   0.000013702
 70  210  0.977857699  0.971980166   0.978503440
 70  315  0.539725936  0.542501356   0.542661548
 70  472  0.075928083  0.079278633   0.076442829
 70  708  0.002632424  0.002830824   0.002647309
 70 1062  0.000016170  0.000018040   0.000016214
 80  240  0.987329875  0.983185850   0.987685543
 80  360  0.589585377  0.590857994   0.592209048
 80  540  0.086207817  0.089467104   0.086719755
 80  810  0.003003158  0.003200157   0.003018527
 80 1215  0.000018436  0.000020288   0.000018489
 90  270  0.992750081  0.989910160   0.992945576
 90  405  0.634046052  0.634103438   0.636388630
 90  607  0.097405383  0.100601135   0.097919297
 90  910  0.003449877  0.003649706   0.003465990
 90 1365  0.000021408  0.000023304   0.000021470

The additional column (approx2) is a second order approximation, with a CLT-like correction to the above formula:

$$P(Y>0 \mid \sum y=k)=\frac{P(\sum y_i=k\mid Y>0)}{P(\sum y_i=k)} P(Y>0)$$

La primera aproximación asume la fracción es un (a causa de la ley de los grandes números, uno espera que el condicionamiento es asympotically irrelevante), mientras que la segunda aproximación se calcula la fracción de usar (una aproximación de orden cero) para la CLT, con una distribución de Poisson en el denominador y un truncado de Poisson en el numerador. De orden superior aproximaciones podrían ser obtenidos a través de Edgeworth expansiones, pero rápidamente se vuelven torpes, ya que los mayores momentos de orden de un truncado de Poisson están involucrados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X