Ciertamente no "tiene que ser equivalente a los dos grupos provenientes de diferentes subyacentes de las poblaciones", la prueba de hipótesis es un probabilística de la empresa. Podría ser un error de tipo I. Para utilizar tu ejemplo, si los estudiantes fueron asignados al azar en dos grupos y nada fue hecho, excepto para darles a todos un examen de matemáticas (es decir, no hubo ninguna manipulación), el hallazgo significativo sería un error de tipo I por definición. (Esto no es tan extraño como suena, cuando los sujetos son asignados al azar en grupos de un estudio longitudinal en el campo de la biomedicina, siempre hay alguien que quiere probar que los pacientes realmente son los mismos en sus covariables en la línea de base, que es lógicamente idéntica a la tonta de la situación que acabo de describir.)
Por otro lado, usted podría mirar ocurren naturalmente en los grupos. Por ejemplo, usted podría evaluar a los estudiantes que se sientan en la parte delantera de la mitad de la habitación frente a los estudiantes que se sientan en la parte de atrás de la mitad de la habitación. Es perfectamente razonable imaginar (tanto como un ex estudiante en varias clases, y como un hecho puntual estadísticas maestro) que los estudiantes que eligen sentarse en la parte delantera o la parte trasera pueden diferir de las capacidades, intereses, etc. Usted podría legítimamente a la conclusión de que aquellos estudiantes que provienen de diferentes poblaciones si usted encuentra un resultado significativo. Lo que no se podría hacer, en esa misma situación, es asumir la causalidad: ya sea que sentado en la parte delantera hace mejor en matemáticas, o que siendo peor en matemáticas hace que te sientas en la parte de atrás. Además, un resultado significativo en esta situación podría ser un error de tipo I; nunca hay garantía alguna de que un resultado significativo, no es un error de tipo I.
No insistir sobre el punto acerca de la causalidad, pero podemos formar una pareja más hipotéticas situaciones y / o estudios. Imaginemos que aleatorizar a los alumnos en dos grupos y les dio a cada uno una versión ligeramente diferente de otra manera idéntica en las pruebas de matemáticas: una versión comienza con el siguiente texto: "este es un muy difícil la prueba consta de preguntas con truco; la mayoría de los estudiantes va a fallar", y la otra versión comienza con, "esta es una prueba muy fácil compuesto de preguntas básicas; la mayoría de los estudiantes se ace". Además, imagina que la media de las puntuaciones de los dos grupos difieren significativamente. Ahora podemos legítimamente a la conclusión de que provienen de poblaciones diferentes, y puede llegar a la conclusión de que la prueba de declaración introductoria tiene un efecto causal sobre el rendimiento (aunque, una vez más, que podría ser un error de tipo I). El significado de " venir de diferentes poblaciones es sutil aquí. Los estudiantes que no pertenecen a algunos de los pre-existentes de los distintos grupos, sino que se han convertido en miembros de la abstracción de la población de estudiantes que han leído una cierta carga emocional declaración introductoria antes de tomar un examen de matemáticas.
En nuestro último estudio hipotético, se puede mezclar la asignación de los estudiantes por los asientos de la clase de preferencia con la manipulación de la prueba de declaración introductoria. Si obtuvimos resultados significativos, podríamos legítimamente a la conclusión de que los estudiantes representan a diferentes grupos de población, en el sentido que acabo de describir, pero que sería de patinaje sobre hielo delgado si tratamos de inferir causalidad para el texto. Esto es debido a que la manipulación experimental se confunde con asientos de preferencia (entre cualquier número de otros posibles invisible factores). El resultado podría ser debido a que el texto, los asientos de preferencia, algo que no se correlaciona con los asientos de preferencia, tal vez de matemáticas de la ansiedad, o ser un simple error de tipo I.