Me gusta el ejemplo de @gui11aume (+1), pero se puede hacer una impresión de que la diferencia en dos $p$-valores sólo surge debido a las diferentes reglas de detención utilizados por los dos experimentadores.
De hecho, creo que es un fenómeno mucho más general. Considerar el segundo experimentador en @gui11aume la respuesta: el que echa una moneda de seis veces y observa los jefes sólo en el último tiro. Los resultados parecen que: $$\mathrm{T \;\;\; T \;\;\;T \;\;\;T \;\;\;T \;\;\;H},$$ what is the $p$-value? The usual approach would be to compute the probability that a fair coin would result in one or less heads. There are $7$ possibilities out of total $64$ with one or less heads, hence the $p=7/64\aprox 0.109$.
Pero, ¿por qué no tomar otra prueba estadística? Por ejemplo, en este experimento se observó cinco colas en una fila. Vamos a tomar la longitud de la secuencia más larga de las colas, como el estadístico de prueba. Hay $3$ posibilidades con cinco o seis colas en una fila, por lo tanto $p=3/64\approx0.047$.
Así que si en este caso la tasa de error se fija en $\alpha=0.05$, entonces la elección de la prueba estadística puede mostrar fácilmente los resultados, ya sea importante o no, y esto no tiene nada que ver con las reglas de detención de por sí.
Especulativo parte
Ahora, filosóficamente, yo diría que el frecuentista elección de la prueba estadística es, en cierto sentido vago similar a la Bayesiana de la elección de antes. Se elige uno u otro estadístico de prueba porque creemos que el injusto de la moneda podría comportarse de tal o cual manera particular (y queremos tener el poder para detectar este comportamiento). No es similar a poner antes en los tipos de monedas?
Si es así, entonces la probabilidad de principio diciendo que toda la evidencia está en la probabilidad de no entrar en conflicto con la $p$-valores, porque el $p$-valor es entonces no sólo a la "cantidad de evidencia". Se trata de "una medida de sorpresa", pero algo, sólo puede ser una medida de sorpresa si cuentas para lo que sería sorprendido! El $p$-valor de los intentos de combinar en una cantidad escalar que tanto la evidencia y algún tipo de expectativas previas (como el representado en la elección de la prueba estadística). Si es así, entonces no debe ser comparado con la probabilidad de sí mismo, pero tal vez más bien a la parte posterior?
Yo estaría muy interesado en escuchar algunas opiniones acerca de este especulativa parte, aquí o en el chat.
Actualización tras una discusión con @MichaelLew
Me temo que mi ejemplo anterior se perdió el punto de este debate. Elige un estadístico de prueba conduce a un cambio en la probabilidad de la función así. Por lo tanto, dos diferentes $p$-valores calculados anteriormente corresponden a dos diferentes funciones de probabilidad, y por lo tanto no puede ser un ejemplo de un "choque" entre la probabilidad de principio y $p$-valores. La belleza de la @gui11aume del ejemplo es que la probabilidad de la función permanece exactamente el mismo, aunque el $p$-valores difieren.
Todavía tengo que pensar en lo que esto significa para mi "especulativo" de la parte de arriba.