La justificación para el control de múltiples pruebas tiene que ver con la familia de las pruebas. La familia de las pruebas pueden ser mutuamente independientes, que es a menudo el caso cuando son extraídos de diferentes conjuntos de datos; si es así, de Bonferroni es una buena manera de controlar FWER. Pero en general, el concepto de un conjunto de datos no entrar a la imagen cuando se habla de la multiplicidad.
Se supone (incorrectamente) que los datos en los diferentes conjuntos de datos deben, por diseño, ser independiente, mientras que las dos pruebas que se calcula con el mismo conjunto de datos debe ser dependiente (también no necesariamente correcta). Para justificar y discutir el tipo de pruebas de corrección del uso, se debe considerar la "familia de las pruebas". Si las pruebas son dependientes o relacionados (es decir, que el $p$-valor de la prueba de realidad, depende de la $p$-valor de otra prueba), de Bonferroni será conservador. (NB: algunos bastante arriesgado prácticas estadísticas puede hacer de Bonferroni anti-conservador, pero que realmente se reduce a la falta de transparencia. Por ejemplo: prueba de hipótesis principal A. Si la hipótesis principal no significativo, de la prueba de hipótesis a y B y de control con corrección de Bonferroni. aquí se permite a sí mismo para probar B sólo porque fue negativo, esto hace que las pruebas a y B correlacionó negativamente, incluso si los datos que contribuyen a que estas pruebas son independientes).
Cuando las pruebas son independientes, de Bonferroni como ustedes saben no es conservador en el control de la FWER. Hay algunos de la zona gris con respecto a lo que constituye una familia de pruebas. Esto puede ilustrarse considerando los análisis de subgrupos, aquí una prueba global puede o no han sido significativos, entonces la población de la muestra se distribuyó en K grupos distintos. Estos grupos tienden independientes, porque son arbitrarias combinaciones de datos independiente de los padres conjunto de datos. Usted puede ver como K distintos conjuntos de datos, o 1 dividido conjunto de datos, no importa. El punto es que la conducta de K pruebas. Si el informe de la global hipótesis: al menos uno de los grupos mostró heterogeneidad de los efectos de los otros grupos, entonces usted no tiene el control para comparaciones múltiples. Si, por otro lado, el informe subgrupo específico resultados, usted tiene que controlar para el K número de pruebas que le tomó a oler que encontrar. Este es el XKCD Jelly Bean cómic en una cáscara de nuez.