Me tomo un gran ofensa a los siguientes dos ideas:
Con grandes muestras, las pruebas de significación se abalanzan sobre pequeñas, sin importancia desviaciones de la hipótesis nula.
Casi ninguna hipótesis nula se cumplen en el mundo real, por lo que la realización de un significado, prueba de ellos es absurdo y extraño.
Es un strawman argumento acerca de p-valores. El muy problema de base que motivó el desarrollo de la estadística viene de ver a una tendencia y el deseo de saber si lo que vemos es por casualidad, o representante de una sistemática tendencia.
Con eso en mente, es cierto que nosotros, como los estadísticos, no suelen creer que un contraste de hipótesis es verdadera (es decir, $H_o: \mu_d = 0$ donde $\mu_d$ es la diferencia de medias en alguna medida entre los dos grupos). Sin embargo, con dos caras pruebas, no sabemos en qué hipótesis alternativa es verdadera! En un dos caras de la prueba, podemos estar dispuestos a decir que estamos 100% seguros de que $\mu_d \neq 0$ antes de ver los datos. Pero no sabemos si $\mu_d > 0$ o $\mu_d < 0$. Así que si tenemos que ejecutar nuestro experimento y a la conclusión de que $\mu_d > 0$, hemos rechazado $\mu_d = 0$ (como Matloff podría decir; inútil conclusión) pero lo que es más importante, también hemos rechazado $\mu_d < 0$ (digo; útil conclusión). Como @ameba se ha señalado, esto también se aplica a uno de los lados de la prueba que tienen el potencial de ser dos caras, como la comprobación de si un medicamento tiene un efecto positivo.
Es cierto que esto no digo que la magnitud del efecto. Pero sí indica que la dirección del efecto. Así que vamos a no poner el carro delante del caballo; antes de empezar a sacar conclusiones sobre la magnitud del efecto, quiero estar seguro de que tienes la dirección del efecto correcto!
Del mismo modo, el argumento de que "los valores de p se abalanzan sobre pequeñas, sin importancia de los efectos" parece bastante imperfecto a mí. Si usted piensa en un p-valor como una medida de la cantidad de los datos que apoya la dirección de su conclusión, entonces, por supuesto, usted quiere recoger los pequeños efectos cuando el tamaño de la muestra es lo suficientemente grande. Decir esto significa que no son útiles, es muy extraño para mí: son estos campos de investigación que han sufrido los p-valores de los mismos que tienen tantos datos que no tienen ninguna necesidad de evaluar la fiabilidad de las estimaciones? Del mismo modo, si tu problemas es realmente que los valores de p "abalanzarse sobre pequeños tamaños del efecto", entonces usted puede simplemente probar la hipótesis de $H_{1}:\mu_d > 1$ $H_{2}: \mu_d < -1$ (suponiendo que usted cree que 1 es el mínimo de importante tamaño del efecto). Esto se hace a menudo en los ensayos clínicos.
Para ilustrar esto, supongamos que ya hemos visto en los intervalos de confianza y desechados p-valores. ¿Cuál es la primera cosa que usted compruebe en el intervalo de confianza? Si el efecto era estrictamente positivo (o negativo) antes de tomar los resultados demasiado en serio. Como tal, incluso sin que los valores de p, se haría de manera informal a hacer la prueba de hipótesis.
Por último, en lo que respecta a la OP/Matloff de la solicitud, "Dar un argumento convincente de p-valores significativamente mejor", creo que es una pregunta un poco torpe. Digo esto porque según su punto de vista, que responde automáticamente a sí mismo ("dame un ejemplo concreto donde poner a prueba una hipótesis es mejor que no, prueba de ellos"). Sin embargo, un caso especial que creo que es casi innegable es que de RNAseq de datos. En este caso, estamos normalmente buscando en el nivel de expresión de ARN en dos grupos diferentes (es decir, enfermos, de los controles) y tratando de encontrar los genes que se expresan diferencialmente en los dos grupos. En este caso, el tamaño del efecto en si mismo no es realmente significativa. Esto es debido a que los niveles de expresión de diferentes genes que varían tan violentamente que para algunos genes, teniendo 2x mayor expresión no significa nada, mientras que en otros estrechamente regulada de los genes, 1.2 x mayor expresión es fatal. Así que la real magnitud del tamaño del efecto es realmente algo interesante cuando primero la comparación de los grupos. Pero realmente, realmente quiero saber si la expresión de los genes de los cambios entre los grupos y la dirección del cambio! Además, es mucho más difícil de abordar las cuestiones de comparaciones múltiples (por el cual usted puede estar haciendo 20.000 de ellos en una sola carrera) con intervalos de confianza que es con p-valores.