Un (frecuentista) prueba de hipótesis, precisamente, abordar la cuestión de la probabilidad de los datos observados o algo más extremo sería probable suponiendo que la hipótesis nula es verdadera. Esta interpretación es indiferente para el tamaño de la muestra. Esa interpretación es válida si la muestra es de tamaño 5 o 1.000.000.
Una advertencia importante es que la prueba sólo es relevante para los errores de muestreo. Los errores de medición, muestreo problemas de cobertura, errores de entrada de datos, etc se encuentran fuera del alcance de error de muestreo. Como el tamaño de la muestra aumenta, los errores no muestrales ser más influyentes como pequeñas salidas pueden producir importantes salidas desde el muestreo aleatorio del modelo. Como resultado, las pruebas de significación se vuelven menos útiles.
De ninguna manera esto es una acusación de pruebas de significación. Sin embargo, necesitamos ser cuidadosos acerca de nuestras atribuciones. Un resultado puede ser significativo estadísticamente. Sin embargo, debemos ser cautelosos acerca de cómo hacemos las atribuciones cuando el tamaño de la muestra es grande. Es que la diferencia debido al error de muestreo (que la prueba supone) o es el resultado de una serie de posibles errores no muestrales que podrían influir en la estadística de prueba?
Otra consideración con grandes muestras es el significado práctico de un resultado. Una prueba significativa podría sugerir (aunque podemos descartar que no de error de muestreo), una diferencia que es trivial en un sentido práctico. Incluso si el resultado es improbable dado el modelo de muestreo, es importante en el contexto del problema? Dada una muestra bastante grande, una diferencia de un par de dólares podría ser suficiente para producir un resultado que es estadísticamente significativa al comparar los ingresos entre los dos grupos. Esto es importante en cualquier sentido significativo? La significación estadística no sustituye el buen juicio y el conocimiento de la materia.
Por otro lado, la nula no es ni verdadera ni falsa. Es un modelo. Es una suposición. Asumimos la nula es verdadera y evaluar nuestra muestra, en términos de esa suposición. Si nuestra muestra, sería poco probable dado este supuesto, tenemos más confianza en nuestra alternativa. A la pregunta de si es o no nula es verdadera en la práctica, es la incomprensión de la lógica de las pruebas de significación.