5 votos

La proporción esperada de la muestra cuando arranque

supongamos que tenemos una muestra de tamaño $N$ que por alguna razón desea bootstrap para producir una muestra de tamaño $M$. Estoy tratando de producir una solución de forma cerrada para la proporción esperada de la muestra que estará presente cuando me bootstrap un ejemplo. No he sido capaz de producir, sin embargo, he utilizado Matlab para venir para arriba con una aproximación numérica.

Me tomó una muestra de tamaño 100 y producido bootstrap de 300 muestras de tamaños que varían de 1 a 500. Para un fijo bootstrap tamaño de la muestra, más tarde se calcula la media de la proporción de la muestra original que se metió en el bootstrap de la muestra por un promedio de más el número de valores únicos. Esto es lo que obtuve:

enter image description here

Alguna idea sobre cómo se produce la forma cerrada para este número?

5voto

AdamSane Puntos 1825

Esto está relacionado con la colisión de conteo en el problema del cumpleaños.

Imagina que entras en una habitación de $k$ de la gente. La probabilidad de que al menos uno comparte una fiesta de cumpleaños con usted es $q(k;n) = 1 - \left( \frac{n-1}{n} \right)^k$ donde $n$ es el número de diferentes cumpleaños ranuras (días del año).

El número esperado de agregar el número total de diferentes cumpleaños en la habitación cuando usted camina en tanto, es $1-q(k;n)=\left( \frac{n-1}{n} \right)^k$

Así que por la ley de expectativas iteradas, el número esperado de diferentes cumpleaños después de $m$ personas que han entrado es

$\sum_{i=1}^m \left( \frac{n-1}{n} \right)^{i-1} = \sum_{i=0}^{m-1} \left( \frac{n-1}{n} \right)^i$

Esto se suma a $m$ términos de una serie geométrica, que es sencillo:

$\hspace{2.3cm} = \frac{1- \left( \frac{n-1}{n} \right)^m}{1-\frac{n-1}{n}}=n\left[1- \left( \frac{n-1}{n} \right)^m\right]$

Verificación: a n=100, m=50 esto da $\approx$ 39.4994, mientras que la simulación se obtiene:

> mean(replicate(10000,length(unique(sample(1:100,50,replace=TRUE)))))
[1] 39.4938

por lo que se ve bien.

A la espera de la fracción es, a continuación, $\frac{1}{n}$th de que, $1- \left( \frac{n-1}{n} \right)^m$.

Tenga en cuenta que si $n$ es grande, $(1-\frac{1}{n})^n\approx e^{-1}$, por lo que si $m$ es un valor que al menos una gran parte de $n$, $(1-\frac{1}{n})^m\approx e^{-\frac{m}{n}}$, así, obtenemos que el número esperado es aproximadamente $n (1- e^{-\frac{m}{n}})$.

Vamos a intentar que la aproximación en el ejemplo de arriba, donde $m=50$ y $n=100$: $100 (1-e^{-\frac{50}{100}})=100(1-e^{-\frac{1}{2}})\approx 39.347$, que es bastante cercano a la respuesta exacta - para un determinado $m/n$ mejora con la mayor $n$.

Para una rápida y razonablemente precisa aproximación a la fracción es $(1- e^{-\frac{m}{n}})$.

Tenga en cuenta que cuando se $m=n$ esto le da a la costumbre "0.632 de la regla".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X