Tengo una perfección de la feria de la moneda, y mi objetivo es demostrar que se es injusto con un nivel de confianza del 95%. Para lograr esto, voy a engañar. Cuando no puedo tener suficiente evidencia, que simplemente aumentar el tamaño de la muestra por continuar para voltear la moneda.
Para ser más específicos, voy a voltear la moneda hasta que la proporción de jefes es lo suficientemente pequeño o lo suficientemente grande como para ser capaz de decir que la moneda es injusto. Digamos que, para cualquier tamaño de muestra $N$, hay al menos un $95\%$ de probabilidad de que la proporción de jefes está dentro del intervalo de confianza
$$0.5 ± f(N)$$
donde $f(N)$ es una función. Si he volteado la moneda de un gran total de $N$ veces, y la proporción de jefes está fuera de este intervalo, entonces me "concluir" que la feria de la moneda es injusto y detener el proceso. Si la proporción se encuentra dentro del intervalo, entonces le doy la vuelta a la moneda una vez más y repita el proceso con $N+1$. Un detalle importante es que nunca me "tiran" de los datos.
¿Cuál es el número esperado de lanzamientos que tendría que hacer hasta que reciba la "estadísticamente significativo" del resultado que busco?
Me he encontrado un par de simulaciones con mi calculadora, y parece que, o bien se necesita un número razonable de flips (como 44) o se necesita una enorme cantidad de tiempo. ¿Por qué es esto, suponiendo que no es error del programador?
Edit: Más simulaciones
Me encontré algunos más simulaciones (en un PC, en lugar de una calculadora). He utilizado dos criterios para determinar si un resultado es significativo. En primer lugar, me requiere que haya al menos $20$ voltea a cabo. Segundo, he utilizado este valor para la función:
$$f(N) = 1.9600 * \sqrt{\frac{0.5 * 0.5}N} = \frac{0.98}{\sqrt{N}}$$
Más ediciones: esta fórmula proviene de la aproximación normal de la distribución binomial, donde $1.96$ es la z-score y la otra parte es la desviación estándar de la proporción.
Mi plan para la ejecución de las simulaciones fue para establecer un límite superior para el número de lanzamientos, la preforma en un gran número de ensayos, y ver qué proporción de los ensayos que se supera el límite. De esta manera, pude recopilar datos en un plazo de tiempo razonable. Después de ejecutar un gran número de simulaciones, he adquirido estos datos:
# of flips proportion > this number sample size
100000 0.298 n=1000
10000 0.41 n=1000
1000 0.5516 n=10000
100 0.7637 n=10000
32 0.8726 n=10000
64 0.8029 n=10000
128 0.738 n=10000
256 0.6768 n=10000
512 0.6252 n=10000
1024 0.563 n=10000
2048 0.5126 n=5000