Tengo una pregunta muy genérica sobre estadística aplicada.
Supongamos, para simplificar, que tenemos una moneda sesgada con probabilidad $p$ de los cabezales de aterrizaje. Queremos determinar si nuestra moneda es realmente justa, es decir, si $p=1/2$ .
Podemos hacerlo lanzando la moneda varias veces, generando una secuencia como $$0,0,1,0,0,1,1,0,1,0,1,1,1,1,0$$ por ejemplo. Ahora debemos determinar si esa secuencia de números es "aleatoria".
Normalmente, las pruebas estadísticas de aleatoriedad incluyen las llamadas "suites" o "baterías", que consisten en varias pruebas juntas. Por ejemplo, random.org lista $15$ diferentes pruebas sobre esta página que se utilizan para confirmar la aleatoriedad de su generador de números.
Mi primera pregunta es: ¿cómo demonios justifican el uso de todas estas pruebas simultáneamente? Seguramente el $15$ las pruebas están correlacionadas de forma interdependiente de una manera irremediablemente complicada? No veo cómo sería posible dar sentido a un conjunto tan amplio de resultados.
En segundo lugar, y más importante: digamos que somos libres de elegir cualquier prueba estadística que queramos (incluso podemos inventar una), después de que se haya generado la secuencia de lanzamientos de la moneda . ¿Esto es siempre posible cocinar algún lío desagradable de una función que devuelve $p$ -¿valores arbitrariamente bajos? Es decir, ¿podemos fabricar una estadística tal que su obtención del valor para el evento dado de lanzamientos de moneda tenga (asumiendo aleatoriedad) una probabilidad menor que cualquier $\epsilon>0$ que se da?
Si es así, ¿qué dice esto sobre la objetividad de las pruebas estadísticas? Hay muchas estadísticas diferentes que podrían medirse para una secuencia de lanzamientos de monedas. Algunas de ellas, sin duda, arrojarán resultados muy improbables. El ser humano es libre de elegir entre que pruebas a utilizar y qué $p$ -valores a rechazar- ¿tiene esto implicaciones para la práctica de la estadística? ¿Cómo podemos medir la "aleatoriedad" de esas secuencias de forma objetiva, sin incorporar el sesgo humano?
EDITAR: Nadie ha abordado aún la cuestión de si, para cualquier secuencia de $1$ y $0$ se puede construir una estadística tal que $P(\text{stat outcome})$ es arbitrariamente pequeño. Creo que esto demuestra una respuesta negativa:
Dado que hay $2^n$ posibles secuencias de longitud $n$ la estadística puede asumir como máximo $2^n$ diferentes valores sobre el espacio de eventos. Por lo tanto, la menor probabilidad posible sería la de obtener ese único resultado, que es $2^{-n}$ . Por lo tanto, el $p$ -valor no puede se haga más pequeño que cualquier $\epsilon>0$ - ¿parece esto correcto?