Me gustaría agregar dos razones. Una es que para la primera estimación de un efecto, el valor p es útil para decidir qué hacer a continuación. ¿Debería molestar en recopilar más datos o realizar otro estudio? Después de todo, los presupuestos son finitos.
Pero parece que estás limitando tu pregunta a situaciones en las que existen estimaciones previas de estudios anteriores para comparar con el hallazgo actual. Con respecto a ese contexto, hay otra razón,
Según entiendo, la idea de la prueba de significancia de la hipótesis nula surgió en una época de muestras únicas y pequeñas. Necesitabas algo que te dijera qué sucedería si recopilaras más datos o sacaras más muestras, porque no podías (o era la norma no hacerlo). Por ejemplo, en mi campo, estudios clásicos reportan resultados de ANOVAs con 10 observaciones por celda. Los valores p realmente importaban para esos contextos, pero no me preguntes por qué no simplemente obtenían muestras más grandes o replicaban su hallazgo como hacemos ahora; no conozco la historia de eso.
Una limitación irónica del valor p es que tiende a hacerse más pequeño a medida que el tamaño de la muestra aumenta, lo que significa que con una muestra lo suficientemente grande, casi siempre (¿definitivamente siempre?) terminas con "significancia estadística". En mi campo, especialmente me resulta frustrante que las revistas estén exigiendo tamaños de muestra más grandes y más replicaciones dentro de un estudio, pero aún así no publicarán tu trabajo sin valores p para cada estimación. ¿No entienden cómo funcionan los valores p? Probablemente. O es solo inercia, realmente no lo sé. Si un artículo informa 3 estudios con muestras grandes, junto con 3 replicaciones exitosas (en el sentido de predicciones sobre las estimaciones que no se falsificaron), pero los tamaños de efecto eran todos trivialmente mayores que cero, los valores p seguirían siendo significativos si las muestras fueran lo suficientemente grandes. Si los tamaños de efecto fueran razonablemente grandes, entonces francamente los valores p solo estorban; seguirán siendo significativos, lo que los hace redundantes con los tamaños de efecto. En estudios como estos, en el mejor de los casos no agregan nada, y en el peor permiten a los investigadores decir "estadísticamente significativo" para efectos que claramente no son significativos en ningún otro sentido significativo.
Demasiado largo/no lo leí: ¿Por qué no confiamos en los autores para hacer la actualización bayesiana ellos mismos? 1) es útil para decidir cuál de dos estudios novedosos seguir. 2) solía ser útil para investigaciones limitadas a muestras únicas y pequeñas (y aún lo es, por ejemplo, para pruebas en animales donde la prioridad es limitar el número de animales que deben sacrificarse), y 3) excluyendo 1 y 2: ¡no lo sé!
P.D. Como respondió un comentario, no todos son expertos y, por lo tanto, es posible que no tengan una priori en su cabeza que les ayude a poner el hallazgo actual en contexto. Para la investigación académica, podría sugerir que esto se podría superar fácilmente, por ejemplo, si las revistas exigieran a los autores reportar las estimaciones de la literatura previa, tal vez en una tabla, para dar al lector ese contexto. Personalmente, consideraría esto como una mejora sobre la práctica actual de citar el trabajo previo verbalmente pero luego, en términos de las estimaciones en sí, engañar funcionalmente al lector haciéndole creer que el estudio actual es la primera prueba de una hipótesis dada al obligarlos a usar el valor p para decidir si creer o no que un efecto es significativo. Personalmente, preferiría ver las 5 estimaciones anteriores antes que el valor p de la estimación actual. ¡Pero eso solo soy yo!