Supongamos que partimos de una distribución de probabilidad inicial sobre $\mathbb{N}$ que da probabilidad positiva a cada $n$ . Llamemos a esta variable aleatoria $X_1$ por lo que tenemos $P(X_1=n)=p_{1,n}>0$ para todos $n\in\mathbb{N}$ . $X_1$ será el primer sorteo de $\mathbb{N}$ . Para el próximo sorteo $X_2$ definimos una nueva distribución en $\mathbb{N}\setminus\{ X_1 \}$ reescalando las probabilidades restantes para que sumen 1. Así que $p_{2,X_1}=0$ y $p_{2,n}=\frac{p_{1,n}}{1-p_{1,X_1}}$ para $n\neq X_1$ . Continuando de esta manera obtenemos un proceso estocástico (ciertamente no Markov) que corresponde a extraer de $\mathbb{N}$ sin sustitución. Mi pregunta es si este proceso se ha estudiado alguna vez en la literatura. En concreto, me pregunto si una elección inteligente de la distribución inicial podría dar lugar a expresiones manejables para las distribuciones de $X_n$ para grandes $n$ .
Respuestas
¿Demasiados anuncios?He aquí algunos cálculos preliminares. Supongamos que la distribución de referencia es $(p(n))$ . Para cada subconjunto finito $I$ de $\mathbb N$ introduzca el número finito $r(I)\ge1$ tal que $$ \frac1{r(I)}=1-\sum_{k\in I}p(k). $$ Obviamente, $P(X_1=n)=p(n)$ para cada $n$ . Igualmente, $P(X_2=n)=E(p(n)r(X_1);X_1\ne n)$ de ahí $$ P(X_2=n)=p(n)(\alpha-p(n)r(n)),\qquad \alpha=\sum\limits_kp(k)r(k). $$ Esto demuestra que $X_1$ y $X_2$ no están equidistribuidos (si lo estuvieran, $\alpha-p(n)r(n)$ no dependería de $n$ Por lo tanto $p(n)$ tampoco lo haría, pero esto es imposible ya que $(p(n))$ es una medida con masa finita sobre un conjunto infinito).
También se puede calcular la distribución conjunta de $(X_1,X_2)$ como $$ P(X_1=n,X_2=k)=p(n)r(n)p(k)[k\ne n], $$ y esto permite ampliar $$ P(X_3=n)=E(p(n)r(X_1,X_2);X_1\ne n,X_2\ne n), $$ como la suma doble $$ P(X_3=n)=p(n)\sum_{k\ne n}\sum_{i\ne n}[k\ne i]r(k,i)p(k)r(k)p(i), $$ pero no parece surgir ninguna expresión más sencilla o realmente esclarecedora.
Si se busca en Google "muestreo sin reemplazo" se obtiene más información de la que podría resumir aquí (hay que tener en cuenta que en la teoría del muestreo se suele suponer que la población es tan grande que es infinita, y la distribución es la que a uno le dé la gana, desde luego no suele ser uniforme).