25 votos

Explicación de las probabilidades desiguales de los números sorteados en una lotería

enter image description here

Extraer 220 veces con reemplazamiento de una máquina de lotería con 12 bolas numeradas del 1 al 12 da como resultado la siguiente distribución:

ball no.     1  2  3  4  5  6  7  8  9 10 11 12
frequency   23 18 21 15 24 17 20 16 21 13 19 13

plot of distribution

Como puede ver, los números Impares se sortean con más frecuencia que los pares y los números inferiores con más frecuencia que los superiores.

¿Se trata de un artefacto del pequeño tamaño de la muestra o hay alguna explicación plausible para esta distribución desigual?


Notas.

  1. Son números reales extraídos de una máquina real en una lotería real.
  2. La máquina que se utilizó no es la de la foto, sino una parecida, es decir, una jaula esférica accionada manualmente (no una esfera de cristal ni un autómata).
  3. Investigué esta lotería porque en la lotería nacional alemana (" 6 aus 49 "), en la que se extraen 6 números de una urna que contiene 49 números, los números no se han dibujado con la misma frecuencia en los aproximadamente 5.000 sorteos desde 1955 (y varios cambios de la máquina de lotería), siendo el 6 el número más frecuente (extraído 611 veces) y el 13 el menos frecuente (492 veces). Se pueden encontrar estadísticas (descriptivas) más detalladas y complejas de la lotería nacional alemana aquí (en alemán). Me interesa la lotería actual, porque es de una organización sin ánimo de lucro en la que confío y a la que apoyo, y tenía curiosidad por saber si su maquinaria o proceso podría producir un sesgo involuntario. No sospecho de fraude.

23voto

blembo Puntos 3

Para determinar si los resultados parecen indicar que hubo chanchullos, ¡podemos probarlo!

Para empezar, tenemos que especificar cuál es nuestra hipótesis nula. Aprovecho este momento para insistir (como han señalado con más detalle las respuestas posteriores) en la importancia de formular hipótesis antes de ver los datos que utilizaremos para comprobarlas. Por ejemplo, usted ha observado que impar y los números de menor valor aparecen con más frecuencia, pero nuestra hipótesis debe formarse antes de ver los datos. Así, sería equivocado mirar los datos, observar que los números Impares aparecen más a menudo en los datos, y luego probar esa hipótesis basándose en los mismos datos (como señala @Him, sin duda es razonable recopilar nuevos datos para probar esta hipótesis).

Según lo que has escrito, parece que los datos anteriores te han hecho creer que se pueden estar produciendo incoherencias, por lo que una prueba natural sería si las extracciones proceden de una distribución uniforme (discreta) (la hipótesis nula), o si las extracciones proceden de alguna otra distribución que, por tanto, indicaría un sesgo hacia determinados números (la hipótesis alternativa).

Una prueba sencilla de esta hipótesis es un prueba de ji cuadrado . Según la hipótesis nula, cada número tiene la misma probabilidad de salir extraído (es decir, en cada extracción hay un $1/12$ probabilidad de que salga un número dado -- las respuestas posteriores también han mostrado cómo se puede utilizar una prueba chi cuadrado con diferentes hipótesis, como impar/diferencia par). Bajo nuestra nula, podemos calcular cuántos sorteos debería haber tenido cada número multiplicando $1/12$ por el número total de extracciones de cada número.

La prueba mide esencialmente en qué medida difieren las extracciones observadas del número esperado de extracciones bajo la hipótesis nula. Utilizando los números observados y realizando esta prueba (véase el código más abajo), encontramos que el valor p es $p = 0.71$ y, por lo tanto, no podemos rechazar la nulidad de que los sorteos proceden de un proceso justo. Por lo tanto, no podemos concluir que las extracciones procedan de un proceso de muestreo sesgado.

>obs = c(23,18,21,15,24,17,20,16,21,13,19,13) 
>p = rep(1/length(obs),length(obs)) 
>chisq.test(obs,p=p)

Chi-squared test for given probabilities

data:  obs X-squared = 8, df = 11, p-value = 0.7133

En cuanto a la segunda parte de la pregunta, supongamos que llegamos a la conclusión de que los empates se produjeron por probabilidades desiguales (que no es el caso). Hay montones de explicaciones plausibles de por qué puede ser así. Por citar dos:

  1. Un estafador con suficiente habilidad probablemente podría fácilmente hacer que el proceso parezca justo cuando no lo es, ya sea haciendo girar la máquina de una manera consistente que asegure que los números que comenzaron en la parte inferior terminen en la parte inferior después de que terminen de girar la palanca, o simplemente siguiendo las bolas mientras la hace girar.

  2. Dices que era de una lotería real, pero ¿has observado realmente este proceso? Si no, entonces es fácil decir que se debieron a una lotería justa aunque no lo fueran.

14voto

manku Puntos 111

Siguiendo la prueba de chi-cuadrado (+1) de @doubled, una cuestión pendiente es si 220 extracciones de la máquina son suficientes para detectar un pequeño sesgo real. Tal vez las bolas numeradas impar son un poco más pesadas, más ligeras, o menos redondas, de tal forma que tengan una probabilidad ligeramente mayor de ser extraídas. Tal vez la verdadera distribución de probabilidades sea $(6,4,6,4, 6,4,6,4, 6,4,6,4)/60.$ ¿Cuál es la probabilidad de que una prueba de ji al cuadrado basada en 220 extracciones detecte este sesgo a favor de de los números Impares?

A partir de esta distribución, se puede simular $m=100\,000$ sesiones de 220 extracciones cada una, hacer la prueba de chi-cuadrado cada vez, y ver qué fracción de las $m$ rechaza la hipótesis nula de que los sorteos son equitativos. Esto da una buena aproximación de la potencia de la prueba chi-cuadrado para detectar el grado especificado de injusticia.

Para empezar, veamos una sesión simulada de este tipo, que ocurre pas detectar la injusticia (valor P > 5%). [Usando R.]

# one session
set.seed(411) # for reproducibility 
pr = c(6,4,6,4, 6,4,6,4, 6,4,6,4)/60
x = sample(1:12, 220, rep=T, p = pr)
TB = tabulate(x);  TB
[1] 23 11 17 20 20 16 19 19 20 17 21 17
chisq.test(TB)$p.val
[1] 0.898677

Ahora, simulando $m$ sesiones de $n=220$ dibuja cada uno, vemos que tenemos un poco menos de una probabilidad de 50:50 de detectar este nivel de injusticia. Al final del vector de simulación pv tiene $m$ Valores P y mean(pv <= 0.05) da la proporción de rechazos. [El parámetro nbins=12 de tabulate fuerzas tabulate para dar el recuento correcto, aunque a una sesión le falten algunas de las cifras más altas].

# 100,000 sessions
set.seed(2021)
pr = c(6,4,6,4, 6,4,6,4, 6,4,6,4)/60
m = 10^5;  pv = numeric(m)
for(i in 1:m) {
 x = sample(1:12, 220, rep=T, p = pr)
 TB = tabulate(x, nbins=12)
 pv[i] = chisq.test(TB)$p.val
 }
mean(pv <= 0.05)
[1] 0.45349

Además, una ejecución del programa con $n = 500$ sorteos por sesión [no se muestra] da una potencia de casi el 90%, y una carrera con $n=650$ da una potencia justo por encima del 95%.

Nota: En estos casos sencillos, no es necesario hacer un simulación para aproximar la potencia de una prueba chi-cuadrado de $H_0: \mathrm{Fair}$ contra vector alternativo pr utilizando $n$ sorteos.

El valor crítico del 5 $c=19.6751$ tiene $P(Q > c|H_0) = 0.05.$ Y el "tamaño del efecto" es $\lambda = n\sum\frac{(p_{ai} - 1/12)^2}{1/12} = 8.8.$ Entonces la potencia exacta $0.4602$ se halla utilizando la distribución chi-cuadrado con grados $\nu = 12-1 = 11$ y el parámetro de no centralidad $\lambda.$

c = qchisq(.95, 11);  c
[1] 19.67514
lam = 220*sum((pr-1/12)^2/(1/12)); lam
[1] 8.8
1 - pchisq(c,11,lam)
[1] 0.4602406

En contraste con $n = 650,$ tenemos $\lambda = 26$ y poder $0.9574.$

lam = 650*sum((pr-1/12)^2/(1/12)); lam
[1] 26
1 - pchisq(c,11,lam)
[1] 0.9573635

Quizás ver Preguntas y respuestas y sus referencias.

10voto

embarus Puntos 407

Mencionaste ese patrón impar-par, así que vamos a investigarlo.

Categoría

Observado

Esperado #

Previsto

impar

92

110

50%

incluso

128

110

50%

Y prueba sólo con estas dos categorías....

Chi squared equals 5.891 with 1 degrees of freedom.
The two-tailed P value equals 0.0152

Eso se consideraría generalmente significativo Este tipo de resultado sólo se produce quince veces de cada mil. Significa eso que tenemos un resultado publicable?

La prueba binomial (más exacta cuando hay dos categorías) da p = 0,0062, también significativa.

Aquí hay varios problemas. En primer lugar, optamos por centrarnos en un aspecto de los datos después de haberlo recogido . Ignoramos otros. Por ejemplo, podríamos haber probado múltiplos de 3, o primos/no primos o... hay muchas otras opciones posibles. Casi todas esas otras opciones resultan "no significativas". Esto es p-hacking el falacia de la gominola verde, ilustrada por xkcd . A menudo es posible encontrar un resultado significativo subdividiendo o agrupando los datos. La respuesta adecuada es seguir investigando. Si se trata de un efecto real, debería convertirse en un resultado más sólido con más datos. Si sólo se trata de "gominolas verdes", no será repetible.

Y (aunque no es el mismo experimento) la lotería alemana 6-aus-49 no tiene patrón impar-par.

En segundo lugar, tenemos un fuerte "previo": Inspeccionamos la máquina y las bolas y no observamos nada que parezca raro. Sabemos, por nuestra experiencia general con este tipo de máquinas, que suelen ser bastante correctas. ¿Cuál es la probabilidad de que la máquina o el operador sean sustancialmente injustos antes del experimento? Evidentemente, aquí hay que juzgar, pero supongamos que decimos 0,001 (una posibilidad entre mil). Ahora, dado este resultado, ¿qué probabilidad hay de que la máquina sea sustancialmente injusta? Bueno, esto te llevará a la estadística bayesiana. Tendríamos que cuantificar "sustancialmente injusta", pero si una máquina injusta siempre dará resultados como este [P(X²>5,891 | injusta)=1] entonces la probabilidad de que la máquina sea injusta, dado que observamos X²>5,891 es sólo 0,001/0,0152 =0,06. Así que actualizamos nuestra estimación de que la máquina es injusta de 0,001 a 0,06. Seguimos pensando que es poco probable que la máquina sea injusta.

4voto

mehturt Puntos 13

Como complemento a las demás respuestas, permítanme ofrecerles una forma visual de inspeccionar las diferencias entre las frecuencias esperadas y las observadas: A (colgando) rootograma inventado por John Tukey (véase también Kleiber y Zeileis (2016) ). En la figura siguiente, las raíces cuadradas de los recuentos previstos se muestran como puntos rojos. Las raíces cuadradas de las frecuencias observadas cuelgan de estos puntos como barras en forma de histograma. Por lo tanto, si las frecuencias esperadas y observadas son similares, la base de las barras se sitúa cerca de cero. Las barras de frecuencias inferiores a las esperadas se sitúan por encima de la línea cero y viceversa. Este gráfico permite ver fácilmente las desviaciones en ambas direcciones.

En términos de interpretación, recuerde que para la mayoría de los valores, la raíz cuadrada de un recuento será inferior a una unidad de su valor esperado. Éste es el caso de los doce números de sus datos. Por lo tanto, hay pocas pruebas de una desviación sistemática de la uniformidad, como ya han explicado las otras respuestas. La raíz cuadrada es útil aquí porque es una función estabilizadora de la varianza para la distribución de Poisson. Con $n=220, p=1/12$ la distribución de Poisson es una aproximación razonable a la binomial. Por último, para $\lambda$ s, la varianza de la raíz cuadrada de una distribución de Poisson estará en torno a $1/4$ por lo que la regla 68-95-99,7 sugiere que la mayoría de los valores estarán dentro de $2\times \sqrt{1/4} = 1$ de la media. Se podría considerar la transformación arcoseno para la binomial, pero prácticamente no hay diferencia en este caso.

Rootogram

Por otra parte, tenga en cuenta que el uso de una prueba de hipótesis formal podría ser dudoso en estos casos, si sólo miró los datos porque le hicieron sospechar (esto se llama HARKing : Hipotetizar después de conocer los resultados). En tu caso, formaste la hipótesis basándote en otros datos, lo que me parece bien.

0voto

jgradim Puntos 1143

Encontré que había una correlación de -0,5109730443013045 entre el número extraído y su frecuencia, y un valor p de 0,090274 para esa correlación. Para una prueba binomial de que un número sea impar o par, obtuve un valor p de 0,00621804354. Cuando ajusté los números Impares por la diferencia de medias (es decir, añadí (media par-media impar) a las frecuencias de los números Impares), encontré una correlación de -0,753098254512706 para los números frente a las frecuencias, con un valor p de 0,0047.

Como ya se ha comentado en otras respuestas, esto es HARKing (formular hipótesis después de conocer los resultados). Hay muchos patrones diferentes que podrías haber observado, así que dada cualquier alfa, la probabilidad de que al menos una tiene un valor p menor que alfa es significativamente mayor que la probabilidad de cada uno individualmente. Además de la posibilidad de seleccionar la hipótesis para que se ajuste a los datos, existe la posibilidad de seleccionar los datos: si se ven muchas loterías y sólo se discuten las que tienen resultados inusuales, o se dejan de recoger datos de una lotería una vez que los datos parecen anómalos y no se siguen recogiendo datos para ver si vuelven a la media, el valor p aparente puede falsear la verdadera improbabilidad de los resultados.

0,090274 es un valor p elevado en general y, en el contexto de HARKing, está dentro de lo que cabría esperar por azar. Es suficiente para llamar la atención, pero no para llegar a una conclusión sólida. En cambio, 0,00621804354 es bastante pequeño. Al ser menos de una octava parte del alfa estándar de 0,05, una pregunta pertinente es: "¿Existen otras ocho hipótesis que serían tan o más notables?". Está en el límite (y ten en cuenta que tienes que tener en cuenta el sesgo de que el patrón que realmente dices se nota más que los que no viste). Cuando se añade el hecho de que seguramente hay más de 161 loterías, ver un valor p de 1/161 difícilmente elimina la posibilidad de que esto se deba sólo al azar. El p-valor de 0,0047, o 1/213, para la correlación ajustada es un poco más bajo, pero también es más artificioso, así que tenemos que ajustar al alza nuestra cifra de "¿Cuántas hipótesis hay que serían tan o más notables?".

Así que basta con que sea comprensible investigar si hay algo que cause un sesgo, pero no hay forma de saberlo sin una investigación empírica, y a veces las cosas ocurren por pura casualidad. Al fin y al cabo, ese es el objetivo de la lotería. Si te tocara la lotería, probablemente no dirías "El valor p de que me toque es inferior a 0,05, así que obviamente la lotería está amañada".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X