Denote $p$ el $p$ -valor de su prueba (como variable aleatoria) y fijar algunos $\alpha$ . Llamar al resultado de una prueba significativo o positivo cuando $p \leq \alpha$ . Tenemos $P(p \leq \alpha \,|\, H_0) \leq \alpha$ . Además, dejemos que $\beta$ sea tal que $P(p > \alpha \,|\, H_1) \leq \beta$ . Entonces $1-\beta$ es la potencia de la prueba.
Tratamiento de $H_0$ y $H_1$ como eventos (complementarios), el teorema de Bayes da: $$\frac{P(H_1 \, | \, p\leq\alpha)}{P(H_0 \,|\, p\leq\alpha)} = \frac{P(p\leq\alpha \,|\, H_1)}{P(p\leq\alpha \,|\, H_0)} \cdot \frac{P(H_1)}{P(H_0)} \geq \frac{1-\beta}{\alpha} \cdot \frac{P(H_1)}{P(H_0)}$$ Esto demuestra que las probabilidades del puesto para $H_1$ son una versión escalada de las probabilidades anteriores, con la fuerza de la escala a favor de $H_1$ que aumenta con $1-\beta$ . Esto significa que aprendemos más de una prueba positiva cuando $1-\beta$ es grande.
Para ilustrar mejor la situación, observe los intervalos de confianza (IC). Se puede argumentar que un mayor tamaño de la muestra hará que el IC sea más estrecho y, por tanto si la prueba fue significativa para una muestra más pequeña, también lo será para la muestra más grande. Sin embargo, también la ubicación del IC puede cambiar cuando incluimos más datos en nuestra muestra, lo que puede hacer que el resultado no sea significativo. También es concebible que la muestra más grande tenga un error estándar mucho mayor y, por lo tanto, el IC se amplíe de hecho. Se podría decir que un tamaño de muestra mayor da a los hechos más oportunidades de probarse a sí mismos.
Últimamente se ha producido un interesante debate sobre la interpretación de $p$ -valores, véase, por ejemplo:
[1] Colquhoun, "An investigation of the false discovery rate and the misinterpretation of p-values", Royal Society Open Science, 2014
[2] Colquhoun, "The Reproducibility Of Research And The Misinterpretation Of P Values", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337
[3] "¿Qué diría Cohen? Un comentario sobre $p < .005$ ", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/
En cuanto a su resultado particular, no estoy cualificado para juzgarlo. Utilizando sólo su $p$ -y la clasificación de [2], se encuentra entre "evidencia débil: merece la pena volver a mirar" y "evidencia moderada de un efecto real".