Acabo de leer esta "noticia" sobre unos profesores de Stanford que han descubierto un patrón en los números primos: https://www.nature.com/news/peculiar-pattern-found-in-random-prime-numbers-1.19550 Según este informe (que, ciertamente, no es el documento de investigación original), parece que la afirmación es simplemente que los primos consecutivos comparten un dígito de las unidades con menos frecuencia que el azar.
Lo primero que pensé fue "¿por qué habría de esperarse otra cosa?". Si uno se limita a hacer una lista de "primos potenciales" (es decir, cualquier número con al menos dos dígitos que termine en 1,3,7 o 9) y luego asigna a cada número una probabilidad independiente de ser primo, entonces uno esperaría que los dígitos de las unidades en primos consecutivos fueran iguales con una frecuencia ligeramente inferior a la del azar.
Para ver lo que quiero decir, replanteemos el siguiente problema: supongamos que tiro un dado ordinario de 6 caras muchas, muchas veces, tomemos 1000 como ejemplo. Numero las tiradas 1-1000 en una lista, y pongo una marca al lado de cada vez que sale el número "1" en el dado. La probabilidad de que los números junto a un par de marcas de verificación consecutivas tengan el mismo dígito de unidades será inferior a 1/10. ¿Por qué lo pregunta? Porque, el número de "fallos" (tiradas que NO son un "1") sigue una distribución geométrica, que es monótona decreciente. Por lo tanto, las probabilidades de que, después de sacar un 1, se necesiten 1,2,3,...9 tiradas adicionales para sacar el siguiente "1" son cada una de ellas mayores que la probabilidad de que se necesiten 10 tiradas. Del mismo modo, las probabilidades de que se necesite cualquiera de las tiradas 11-19 son mayores que la probabilidad de que se necesite 20 tiradas, y así sucesivamente. Por lo tanto, la probabilidad de sacar exactamente 10, 20, 30,... etc. es menor que 1/10. De hecho, es menos de 0,04.
Por supuesto, la probabilidad de que un número N sea primo disminuye a medida que N aumenta. Sin embargo, el argumento anterior es independiente de la probabilidad, siempre que las probabilidades de éxito en los ensayos sucesivos no cambien mucho. Pero como esta probabilidad es proporcional a 1/ln(N), que varía muy lentamente, esto debería ser cierto.
Sin embargo, lo que creo que ocurre aquí es que sólo se espera un sesgo significativo cuando la brecha media entre los primos es inferior a o alrededor de 10. De hecho, para listas de números primos pequeños (por ejemplo, números primos inferiores a 400), he comprobado algunos casos y el argumento anterior (utilizando la fracción observada de números primos potenciales en ese rango que SON primos, como si fuera uniforme) predice la probabilidad de compartir unidades de dígitos notablemente bien. Por encima de unos 22.000, la brecha media es superior a 10, pero han mirado el primer mil millones primos. De ellos, una fracción tan pequeña es inferior a 22.000 que el sesgo debería ser insignificante en ese punto. Sin embargo, todavía se observan sesgos de más de un porcentaje.
Así que sospecho que los autores del artículo original están afirmando que el sesgo decae mucho más lentamente de lo que predice el argumento de las series geométricas, por alguna definición rigurosa de "mucho más lento", y esta sutileza se perdió en la información para el público general. No sé lo suficiente de teoría de números como para entender lo que podría ser, pero ¿alguien aquí entiende lo que realmente están afirmando?