Hay un artículo en Wikipedia que habla de los valores p . En la sección de ejemplos da este ejemplo:
Una tirada de un par de dados
Supongamos que un investigador lanza un par de dados una vez y asume la hipótesis nula de que los dados son justos, no están cargados ni se inclinan por ningún número/tirada/resultado específico; son uniformes. La estadística de la prueba es "la suma de los números lanzados" y es de una cola. El investigador lanza los dados y observa que ambos dados muestran 6, lo que arroja una estadística de prueba de 12. El valor p de este resultado es 1/36 (porque bajo el supuesto de la hipótesis nula, la estadística de prueba se distribuye uniformemente) o aproximadamente 0,028 (la estadística de prueba más alta de 6×6 = 36 resultados posibles). Si el investigador asumiera un nivel de significación de 0,05, este resultado se consideraría significativo y se rechazaría la hipótesis de que los dados son justos.
En este caso, una sola tirada proporciona una base muy débil (es decir, datos insuficientes) para sacar una conclusión significativa sobre los dados. Esto ilustra el peligro de aplicar ciegamente el valor p sin tener en cuenta el diseño del experimento.
Evidentemente, no se publicaría un artículo sobre el resultado, pero el valor p es estadísticamente significativo. ¿Cuáles son las medidas para evitar este tipo de "error"?
PS. Sería estupendo que se presentaran tanto un método frecuentista como uno bayesiano.
2 votos
Debería ser "nivel de significación de '0,05'" y no '0,005'
3 votos
Los valores P son geniales, ¿no?
2 votos
xkcd.com/1132
0 votos
Se trata de un valor p bastante débil que resulta de una prueba de hipótesis unilateral. Que yo sepa, nadie aboga por probar a ciegas hipótesis arbitrarias, por lo que la sospecha de que los dados saquen, de media, más de 7 debe ser una cuestión científica importante. Además, el umbral de significación de 0,05 es un resultado lamentable de la gente que lee los primeros trabajos de Fisher. Fisher haría que el investigador hiciera sus propios juicios basados en pruebas nuevas y posiblemente antiguas, mientras que para Neyman/Pearson ésta sería la única hipótesis preestablecida a probar. En cualquier caso, los revisores probablemente pedirían réplicas.