2 votos

Tamaño de la muestra para estimar la probabilidad de éxito de un proceso Bernoulli

Supongamos que un jugador de la IA en una partida puede ganar o perder. Deseo estimar la proporción de victorias de este jugador. Mi pregunta es, ¿cuántas muestras (partidas) se necesitan para obtener un error inferior al 1%?

Un amigo me explicó que Desigualdad de Hoeffding es el enfoque correcto, sin embargo en una pregunta similar Tamaño de la muestra necesario para estimar la probabilidad de "éxito" en un ensayo Bernoulli la respuesta no mencionaba la desigualdad de Hoeffding. También encontré esto Calculadora del tamaño de la muestra que podría ser la herramienta adecuada para este problema, sin embargo no pude entender cómo utilizarla.

Desigualdad de Hoeffding : Supongamos que quiero saber con un 95% de certeza que la proporción de victorias es X ±1% que,

$$ P(H(n) \leq k) = \sum_{i=0}^k {n\choose i} p^iq^{n-i} $$ Para $ k=(p-\epsilon)n$ , $$ P(H(n) \leq (p-\epsilon)n) \leq e^{-2\epsilon^2n}$$ $$ P(H(n) \geq (p+\epsilon)n) \leq e^{-2\epsilon^2n}$$ Así, $$ (p-\epsilon)n \leq P(H(n) \leq (p+\epsilon)n) \geq 1-2e^{-2\epsilon^2n}$$ Para $ \epsilon = 0.01$ y $ 95\% $ certeza $$ 95\% \geq 1-2e^{-0.0002n}$$ que da $ n\geq 18,444 $

Esto significa que para estimar la proporción de victorias con un error inferior al 1%, en el 95% de las veces, se necesitan 18444 muestras.

¿Es eso cierto? ¿Es la desigualdad de Hoeffding el mejor enfoque en este caso? ¿está apretado? ¿Puede algún otro límite / desigualdad dar esta certeza con menos muestras? ¿Si sé que la proporción de victorias es de 60±5%, eso ayudaría?

2voto

manku Puntos 111

Simulemos el experimento un millón de veces en R. Supongamos que $p = .4.$ Si nos fijamos en $n = 10,000$ juegos en cada iteración, entonces qué resultados obtenemos para $\hat p?$

n = 10^4; p = .4
p.hat = rbinom(10^6, 10^4, .4)/n
quantile(p.hat, c(.025, .975))
  2.5%  97.5% 
0.3904 0.4096 
summary(p.hat)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3742  0.3967  0.4000  0.4000  0.4033  0.4245 

En el 95% de los casos, $\hat p$ se situó entre 0,39 y 0,41, tal y como se requería. El peor resultados en un millón de iteraciones fueron un mínimo de 0,374 y un máximo de 0,425. Observando los cuartiles vemos que la mitad de los $\hat p$ estaban considerablemente más cerca de lo requerido, entre 0,397 y 0,403.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X