2 votos

La objetividad de las pruebas estadísticas

Tengo una pregunta muy genérica sobre estadística aplicada.

Supongamos, para simplificar, que tenemos una moneda sesgada con probabilidad $p$ de los cabezales de aterrizaje. Queremos determinar si nuestra moneda es realmente justa, es decir, si $p=1/2$ .

Podemos hacerlo lanzando la moneda varias veces, generando una secuencia como $$0,0,1,0,0,1,1,0,1,0,1,1,1,1,0$$ por ejemplo. Ahora debemos determinar si esa secuencia de números es "aleatoria".

Normalmente, las pruebas estadísticas de aleatoriedad incluyen las llamadas "suites" o "baterías", que consisten en varias pruebas juntas. Por ejemplo, random.org lista $15$ diferentes pruebas sobre esta página que se utilizan para confirmar la aleatoriedad de su generador de números.

Mi primera pregunta es: ¿cómo demonios justifican el uso de todas estas pruebas simultáneamente? Seguramente el $15$ las pruebas están correlacionadas de forma interdependiente de una manera irremediablemente complicada? No veo cómo sería posible dar sentido a un conjunto tan amplio de resultados.

En segundo lugar, y más importante: digamos que somos libres de elegir cualquier prueba estadística que queramos (incluso podemos inventar una), después de que se haya generado la secuencia de lanzamientos de la moneda . ¿Esto es siempre posible cocinar algún lío desagradable de una función que devuelve $p$ -¿valores arbitrariamente bajos? Es decir, ¿podemos fabricar una estadística tal que su obtención del valor para el evento dado de lanzamientos de moneda tenga (asumiendo aleatoriedad) una probabilidad menor que cualquier $\epsilon>0$ que se da?

Si es así, ¿qué dice esto sobre la objetividad de las pruebas estadísticas? Hay muchas estadísticas diferentes que podrían medirse para una secuencia de lanzamientos de monedas. Algunas de ellas, sin duda, arrojarán resultados muy improbables. El ser humano es libre de elegir entre que pruebas a utilizar y qué $p$ -valores a rechazar- ¿tiene esto implicaciones para la práctica de la estadística? ¿Cómo podemos medir la "aleatoriedad" de esas secuencias de forma objetiva, sin incorporar el sesgo humano?


EDITAR: Nadie ha abordado aún la cuestión de si, para cualquier secuencia de $1$ y $0$ se puede construir una estadística tal que $P(\text{stat outcome})$ es arbitrariamente pequeño. Creo que esto demuestra una respuesta negativa:

Dado que hay $2^n$ posibles secuencias de longitud $n$ la estadística puede asumir como máximo $2^n$ diferentes valores sobre el espacio de eventos. Por lo tanto, la menor probabilidad posible sería la de obtener ese único resultado, que es $2^{-n}$ . Por lo tanto, el $p$ -valor no puede se haga más pequeño que cualquier $\epsilon>0$ - ¿parece esto correcto?

1voto

txmail Puntos 100

Para hacer un experimento científico de forma realmente objetiva, el proceso ideal es:

  1. Describa el experimento a realizar.
  2. Enumera todos los posibles resultados del experimento.
  3. Declara qué conclusión sacarías de cada resultado.
  4. Realiza el experimento.
  5. Publica los resultados y la conclusión.

La gente suele simplificar este proceso de manera que puede introducir una subjetividad menor (o grave) en la interpretación de los resultados. Para el caso de "¿Es esta moneda justa?", es sencillo seguir los pasos exactamente:

  1. Lanza la moneda 100 veces.
  2. Los resultados posibles son N = 0 - 100 cabezas. El orden no es importante.
  3. Para
    • N < 42 declara "Moneda injusta, favorece a la cruz" con un 95% de confianza.
    • N > 58 declaran "Moneda injusta, favorece a la cara" con un 95% de confianza.
    • De lo contrario, declare "La moneda es justa dentro de los límites de este experimento".
  4. Realizar un experimento, etc.

Si se espera hasta después de realizar el experimento para decidir cómo interpretar los resultados, existe la posibilidad de introducir un sesgo. Dependiendo de cómo esté diseñado el experimento, esto puede ser un problema menor o mayor.

Por ejemplo, un experimento en el que la técnica es: "Dividiremos a nuestros sujetos de prueba en 8 grupos diferentes, haremos un seguimiento de 6 variables distintas e informaremos del resultado más significativo". En ese caso, está prácticamente garantizado que se observará un resultado "significativo" falso. Por ejemplo, "Encontramos que en el caso de las mujeres de 30 a 35 años que pasaban de 1 a 2 horas con el móvil al día, sus hijos tenían el doble de problemas de disciplina (P>95%)."

En cuanto a las pruebas que has citado en random.org, la mayoría de ellas son para fuentes pseudoaleatorias en las que los resultados de los intentos sucesivos no son independientes. Comprueban si los resultados sucesivos están distribuidos de forma suficientemente uniforme. Esas pruebas no son significativas para el lanzamiento de monedas, donde los resultados sucesivos son independientes.

1voto

jsk Puntos 493

Normalmente, la objetividad en las pruebas estadísticas proviene de la decisión de una estadística de prueba antes de recoger los datos. El proceso que describes en el que se realizan análisis post hoc en busca de un valor p pequeño ha recibido mucha atención en la literatura. Uri Simonsohn y sus colegas han popularizado la frase P-hacking para describir las prácticas mal vistas de "dragado de datos, fisgoneo, pesca, búsqueda de significación y doble inmersión". He aquí una enlace a un artículo reciente en Nature en el que se habla de esta forma de mala praxis estadística.

0voto

user139388 Puntos 2826

A $p$ -se define realmente (en Inferencia estadística por Casella y Berger, por ejemplo) para ser una estadística, no sólo un número, y se llama válido si cumple con $$ P_\theta[p({\bf X}) \leq \alpha] \leq \alpha $$ para $\theta \in \Theta_0$ . Así que la probabilidad de ver valores pequeños es realmente baja bajo la hipótesis nula. Esto tiene sentido. Si se restringe a valores válidos $p$ -valores entonces, no se puede simplemente elegir cualquier $p$ -valor que te gusta.

También hay que tener en cuenta que existe la noción de información contenida en una muestra, y el grado en que una estadística conserva lo.

0voto

heropup Puntos 29437

Debo señalar que probar la hipótesis de que la moneda es feria es definitivamente no equivale a probar la hipótesis de que la secuencia de cabezas/colas que genera es al azar . La secuencia puede ser aleatoria pero sesgada; a la inversa, la moneda puede ser justa pero de forma determinista (no aleatoria).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X