El ajuste de Bonferroni siempre proporcionará un fuerte control de la tasa de error de la familia. Esto significa que, sea cual sea la naturaleza y el número de las pruebas, o las relaciones entre ellas, si se cumplen sus supuestos, garantizará que la probabilidad de tener incluso un resultado significativo erróneo entre todas las pruebas sea como máximo $\alpha$ su nivel de error original. Por lo tanto, siempre es disponible .
Ya sea apropiado utilizarlo (en lugar de otro método o tal vez ningún ajuste) depende de sus objetivos, de las normas de su disciplina y de la disponibilidad de métodos mejores para su situación específica. Como mínimo, debería considerar el método Holm-Bonferroni, que es igual de general pero menos conservador.
En cuanto a su ejemplo, ya que está realizando varias pruebas, usted son aumentar la tasa de error de la familia (la probabilidad de rechazar erróneamente al menos una hipótesis nula). Si sólo se realiza una prueba en cada mitad, serían posibles muchos ajustes, incluido el método de Hommel o los métodos que controlan la tasa de falsos descubrimientos (que es diferente de la tasa de error por familias). Si realiza una prueba en todo el conjunto de datos seguida de varias subpruebas, las pruebas ya no son independientes, por lo que algunos métodos ya no son apropiados. Como he dicho antes, Bonferroni está en cualquier caso siempre disponible y garantiza que funciona como se anuncia (pero también que es muy conservador ).
También puedes ignorar todo el asunto. Formalmente, la tasa de error de la familia es mayor, pero con sólo dos pruebas no es tan grave. También podría empezar con una prueba sobre todo el conjunto de datos, tratado como el resultado principal, seguido de subpruebas para diferentes grupos, no corregidas porque se entienden como resultados secundarios o hipótesis auxiliares.
Si se tienen en cuenta muchas variables demográficas de este modo (en lugar de planificar únicamente la comprobación de las diferencias de género desde el principio o tal vez un enfoque de modelización más sistemático), el problema se agrava con un riesgo significativo de "dragado de datos" (una diferencia resulta significativa por casualidad, lo que permite rescatar un experimento no concluyente con una bonita historia sobre la variable demográfica para arrancar, mientras que en realidad no ha ocurrido nada) y debería considerar definitivamente algún tipo de ajuste para las pruebas múltiples. La lógica sigue siendo la misma con X hipótesis diferentes (probar X hipótesis dos veces -una en cada mitad del conjunto de datos- conlleva una mayor tasa de error por familia que probar X hipótesis sólo una vez y probablemente debería ajustarse por ello).