28 votos

¿Cuánto tiempo le toma a una persona con este "engaño" de la recolección de datos estrategia para lograr un resultado deseado?

Tengo una perfección de la feria de la moneda, y mi objetivo es demostrar que se es injusto con un nivel de confianza del 95%. Para lograr esto, voy a engañar. Cuando no puedo tener suficiente evidencia, que simplemente aumentar el tamaño de la muestra por continuar para voltear la moneda.

Para ser más específicos, voy a voltear la moneda hasta que la proporción de jefes es lo suficientemente pequeño o lo suficientemente grande como para ser capaz de decir que la moneda es injusto. Digamos que, para cualquier tamaño de muestra $N$, hay al menos un $95\%$ de probabilidad de que la proporción de jefes está dentro del intervalo de confianza

$$0.5 ± f(N)$$

donde $f(N)$ es una función. Si he volteado la moneda de un gran total de $N$ veces, y la proporción de jefes está fuera de este intervalo, entonces me "concluir" que la feria de la moneda es injusto y detener el proceso. Si la proporción se encuentra dentro del intervalo, entonces le doy la vuelta a la moneda una vez más y repita el proceso con $N+1$. Un detalle importante es que nunca me "tiran" de los datos.

¿Cuál es el número esperado de lanzamientos que tendría que hacer hasta que reciba la "estadísticamente significativo" del resultado que busco?

Me he encontrado un par de simulaciones con mi calculadora, y parece que, o bien se necesita un número razonable de flips (como 44) o se necesita una enorme cantidad de tiempo. ¿Por qué es esto, suponiendo que no es error del programador?

Edit: Más simulaciones

Me encontré algunos más simulaciones (en un PC, en lugar de una calculadora). He utilizado dos criterios para determinar si un resultado es significativo. En primer lugar, me requiere que haya al menos $20$ voltea a cabo. Segundo, he utilizado este valor para la función:

$$f(N) = 1.9600 * \sqrt{\frac{0.5 * 0.5}N} = \frac{0.98}{\sqrt{N}}$$

Más ediciones: esta fórmula proviene de la aproximación normal de la distribución binomial, donde $1.96$ es la z-score y la otra parte es la desviación estándar de la proporción.

Mi plan para la ejecución de las simulaciones fue para establecer un límite superior para el número de lanzamientos, la preforma en un gran número de ensayos, y ver qué proporción de los ensayos que se supera el límite. De esta manera, pude recopilar datos en un plazo de tiempo razonable. Después de ejecutar un gran número de simulaciones, he adquirido estos datos:

# of flips      proportion > this number      sample size
100000          0.298                         n=1000
10000           0.41                          n=1000
1000            0.5516                        n=10000
100             0.7637                        n=10000
32              0.8726                        n=10000
64              0.8029                        n=10000
128             0.738                         n=10000
256             0.6768                        n=10000
512             0.6252                        n=10000
1024            0.563                         n=10000
2048            0.5126                        n=5000

7voto

Sharkos Puntos 11597

Nota: a partir De David Speyer la respuesta de los de abajo es una conclusión incorrecta basada en datos incompletos! Guardado para la posteridad. Yo en particular, no un plan para investigar más :)


Corrí 10000000 simulaciones (hasta 100000 max sacude cada uno) mientras ve la TELEVISIÓN y se recogió un histograma de donde me detuve. Tengo ligeramente diferentes números, pero lo suficientemente similares que creo que este es una combinación de errores estadísticos, los errores de redondeo y los errores de codificación! Sospecho que el comportamiento básico es el mismo, pero es posible que hay algunos extrema sensibilidad en las colas. No he revisado mi código en busca de errores.


No han pensado acerca de por qué este comportamiento surge, pero por $M$ el número de lanzamientos necesarios, la probabilidad parece que se comporta como $$\mathbb{P}(M \ge m) \sim \frac C {m^k}\qquad C\aprox 1.41,k\aprox 0.13$$ Graph

Por supuesto, esto sólo podría ser completamente engañosa línea, es muy difícil decir. Este es, sin duda empírica.

Si esto es para seguir el escrutinio, entonces ciertamente tenemos $$\mathbb{E}(M)=\sum_m^\infty \mathbb P(M\ge m) = \infty$$ Si alguien se imagina a un poco de diversión, creo que viendo este es el comportamiento correcto y la obtención de una expresión para $k$ puede ser un buen reto!


Edit: Actualizado con un poco mejor los datos.

También, como dije en el comentario anterior,

Esta es la previsión de el tiempo de parada de una caminata al azar de la cadena de Markov con el movimiento de las barreras; desde el paseo aleatorio mover $\sim \sqrt$ N y sus barreras se están moviendo a (más o menos el mismo) $\sim \sqrt$ N es posible que la expectativa diverge.

Probablemente, usted puede venir para arriba con un buen argumento de por qué este tipo de comportamiento se espera, pero no he tomado tomado el tiempo para probar todavía, así que podría ser demasiado optimista. Si llego a pensar acerca de esto que voy a publicar!

6voto

Chris Benard Puntos 1430

Según Blackwell y Freedman, Un Comentario sobre la Moneda Lanzando Juego, el tiempo de espera para el número de cabezas de salir a la calle $n/2 \pm \sqrt{n}$ es finito para $a<1$ e infinito para $a \geq 1$. Me temo que no entiendo su prueba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X