En el frecuentista perspectiva, la "significación estadística" es una inferencia basada en algún tipo de carga de la prueba.
Una manera de explicar una prueba de hipótesis para un no-estadístico de la audiencia es para dar un ejemplo acerca de la moneda de tirar.
Supongamos que tengo una moneda. Sé si es justo o injusto de la moneda; es decir, sé que si cae cara o cruz con la misma frecuencia, o si no. Yo deje de tomar prestado de la moneda, pero yo no le digo a usted acerca de su imparcialidad. ¿Cómo intenta inferir esta propiedad de la moneda?
Naturalmente, tu intuición te dice que para darle la vuelta, de preferencia "muchas" veces, y ver si la moneda cae de cabeza o de las colas con "aproximadamente" igual frecuencia. Pero, ¿cuánto es "muchos?" Cómo "aproximadamente igual a" hacer las frecuencias de los resultados deben ser, o cómo "aproximadamente desigual"¿tienen que ser para que usted se sienta seguro en la afirmación de que la moneda es injusto?
Vamos a abordar esta segunda pregunta primero por momentáneamente suponiendo que yo sólo han permitido a mantener la moneda de diez lanzamientos, después de que yo se lo quieren de vuelta. Para realizar el experimento, tira la moneda al aire diez veces, y se observa que la moneda ha aterrizado cabezas 9 veces y colas de una vez. Intuitivamente parece muy extraño para usted. Se podría pensar, "wow, esta moneda parece sesgada." Pero ¿lo es? Y si es así, ¿ seguro está usted de esta afirmación?
Después de todo, incluso una moneda podría comportarse de esta manera. Puede que no sea muy probable, pero no imposible.
Esto nos lleva a pensar que si la moneda había sido hecho justo, ¿cuál era la probabilidad de observar un resultado tan extremo? Es decir, żcuál es la probabilidad de que una moneda, cuando se volcó en diez veces, podría indicar al menos:
- 9 cabezas, 1 cola
- 10 cabezas, colas 0
- 9 colas, 1 cabeza de
- 10 colas, 0 cabezas?
Se tienen en cuenta todos estos resultados, porque en un sentido, sería igual de sorprendido al ver a los tres últimos resultados en la medida en que sería ver a la primera. 9 colas y 1 cabeza de una feria de la moneda es tan sorprendente como 9 jefes y 1 cola. Y 10 de la misma el resultado es aún más sorprendente.
Así, todos los 10 jefes tiene una probabilidad de $1/2^{10} = 1/1024$ de ocurrencia. Exactamente 9 cabezas y una cola tiene una oportunidad de $10/2^{10} = 10/1024$. Por simetría, el total de la probabilidad de un resultado al menos tan extremo como lo que has observado, suponiendo que la moneda fue justo, es $$\frac{1+10+10+1}{1024} = \frac{11}{512} \approx 0.0214844 \approx 2.15\%.$$ This means, if you had a hundred people perform the same experiment on my coin as you did, you should expect about $2$ de esas personas a ver la misma cara (cabeza/cola) al menos 9 veces en 10 ensayos.
Así, poco probable, pero no imposible. Y esto habla a su nivel de la confianza de su afirmación de que la moneda es injusto: "estadísticamente significativo" podría significar que usted está dispuesto a estar equivocado acerca de la moneda (en el sentido de llegar a la conclusión errónea de que es injusto cuando en realidad era justo) en la medida en $5\%$ del tiempo, en cuyo caso, el experimento ha cumplido con su definición de la significación. Pero si yo ahora digo, "si usted hace una incorrecta la afirmación de que la moneda es injusto, será castigado \$1000", puede ser mucho menos dispuestos a asumir un 5 por ciento de probabilidad de ser malo en esta manera, especialmente si no hay ninguna sanción por no detectar si la moneda es injusto. Usted desea naturalmente la demanda que usted pueda voltear la moneda más veces y su carga de la prueba sería más alto, tal vez tendría que ver al menos 19 de los 20 jefes, o 99 de 100 cabezas, antes de que usted está dispuesto a hacer valer la moneda es injusto.
Y esto nos lleva de nuevo a nuestra primera pregunta: ¿cuántos lanzamientos es "suficiente?" Si usted dice que es necesario tener al menos un 99% de confianza, entonces claramente, está permitido el lanzamiento de la moneda sólo cinco veces no es en absoluto suficiente, incluso si el resultado es de todos los jefes, o todas las colas, no es un $1/32 + 1/32 = 1/16 = 0.0625 > 0.01$ de probabilidad de que una moneda de dar un resultado.
Sin entrar en demasiados detalles matemáticos, a continuación, el tamaño de la muestra es claramente relacionados con nuestra tolerancia a errores. Si dejo de tirar la moneda una y mil veces, y su nivel de significación estadística fue de que usted necesita para ser de al menos 99% seguro de que la moneda es injusto, sería necesario observar al menos 542 jefes o 542 colas de 1000 tiros a la conclusión de que la moneda es injusto.