Si se ejecuta $k$ pruebas estadísticas independientes utilizando $\alpha$ como su nivel de significación, y el nulo se obtiene en cada caso, el hecho de encontrar o no "significación" es simplemente una extracción de una variable aleatoria. En concreto, se extrae de una distribución binomial con $p=\alpha$ y $n=k$ . Por ejemplo, si planea realizar 3 pruebas con $\alpha=.05$ y (sin saberlo) no hay realmente ninguna diferencia en cada caso, entonces hay un 5% de posibilidades de encontrar un resultado significativo en cada prueba. De este modo, la tasa de error de tipo I se mantiene en $\alpha$ para las pruebas individualmente, pero en el conjunto de las 3 pruebas la tasa de error de tipo I a largo plazo será mayor. Si cree que tiene sentido agrupar / pensar en estas 3 pruebas juntas, entonces puede mantener la tasa de error de tipo I en $\alpha$ para el conjunto en su conjunto en lugar de hacerlo individualmente. ¿Cómo hay que hacerlo? Hay dos enfoques que se centran en pasar de la $\alpha$ (es decir, $\alpha_o$ ) a un nuevo valor (es decir, $\alpha_{\rm new}$ ):
Bonferroni: ajustar el $\alpha$ utilizado para evaluar la "importancia" de manera que
$$\alpha_{\rm new}=\frac{\alpha_{o}}{k}\qquad\qquad\quad$$
Dunn-Sidak: ajustar $\alpha$ utilizando
$$\alpha_{\rm new}=1-(1-\alpha_{o})^{1/k}$$
(Tenga en cuenta que el Dunn-Sidak supone que todas las pruebas dentro del conjunto son independientes entre sí y podría producir una inflación de errores de tipo I a nivel familiar si ese supuesto no se cumple).
Es importante tener en cuenta que al realizar las pruebas, hay dos tipos de errores que se quiere evitar, tipo I (es decir, decir que hay es una diferencia cuando no la hay) y el tipo II (es decir, decir que hay no es una diferencia cuando realmente la hay). Normalmente, cuando se habla de este tema, sólo se habla -y parece que sólo se tiene en cuenta/se preocupa- de los errores de tipo I. Además, a menudo se olvida mencionar que el porcentaje de error calculado sólo se mantiene si todo Los nulos son verdaderos. Es trivialmente obvio que no se puede cometer un error de tipo I si la hipótesis nula es falsa, pero es importante tener este hecho explícitamente en mente cuando se discute esta cuestión.
Traigo esto a colación porque hay implicaciones de estos hechos que parece que a menudo no se tienen en cuenta. En primer lugar, si $k>1$ El enfoque de Dunn-Sidak ofrecerá una mayor potencia (aunque la diferencia puede ser muy pequeña con pequeños $k$ ), por lo que siempre se debe preferir (cuando sea aplicable). En segundo lugar, un "reducción debe utilizarse. Es decir, probar primero el mayor efecto; si se está convencido de que el nulo no se obtiene en ese caso, entonces el número máximo posible de errores de tipo I es $k-1$ por lo que la siguiente prueba deberá ajustarse en consecuencia, y así sucesivamente. (Esto suele incomodar a la gente y parecer una pesca, pero es no pesca, ya que las pruebas son independientes, y usted pretendía realizarlas antes de ver los datos. Esto es sólo una forma de ajustar $\alpha$ óptimamente).
Lo anterior es válido independientemente de cómo se valoren los errores de tipo I en relación con los de tipo II. Sin embargo, a-priori no hay ninguna razón para creer que los errores de tipo I sean peores que los de tipo II (a pesar de que todo el mundo parece suponerlo). Por el contrario, se trata de una decisión que debe tomar el investigador, y debe ser específica para esa situación. Personalmente, si estoy ejecutando la teoría sugerida, a-priori , contrastes ortogonales, no suelo ajustar $\alpha$ .
(Y para decirlo de nuevo, porque es importante, todo lo anterior supone que las pruebas son independientes. Si los contrastes no son independientes, como cuando se comparan varios tratamientos con el mismo control, hay que adoptar un enfoque diferente al de $\alpha$ ajuste, como la prueba de Dunnett).
1 votos
Odio el hecho de que estas correcciones sean necesarias a menudo con las pruebas de hipótesis frecuentistas estándar y prefiero las técnicas bayesianas. Dicho esto, odio menos la corrección de Sidak porque parece menos ad-hoc (si estás dispuesto a aceptar el supuesto de independencia). Sin embargo, esto es sobre todo una preferencia personal, por lo que lo he convertido en un comentario en lugar de una respuesta.
2 votos
@MichaelMcGowan: Sólo por curiosidad, pero, ¿qué considera usted " ad hoc " sobre una corrección de Bonferroni?
0 votos
@cardinal Lo siento, probablemente no fue la mejor elección de palabras. A costa de necesitar supuestos más fuertes (no quiero trivializar ese coste), la corrección de Sidak crea un límite con más significado cualitativo. Realmente no puedo explicar cualitativamente lo que representa el límite en la corrección de Bonferroni, aparte de una especie de límite en el peor de los casos según la desigualdad de Boole.
0 votos
@MichaelMcGowan: Ah, ok. Ya veo. Supongo que hay un par de cosas cualitativas que uno podría decir sobre Bonferroni: (a) Proporciona una protección garantizada contra la tasa de error familiar, independientemente de la dependencia entre los estadísticos de las pruebas individuales bajo la nulidad y (b) Es la corrección exactamente correcta que hay que hacer cuando las regiones de rechazo de las pruebas de hipótesis individuales son disjuntas por pares.
0 votos
@MichaelMcGowan: Un pequeño inciso, estoy seguro de que fue una elección de palabras inadvertida, pero sólo para aclarar a los demás, que la corrección de Sidak no es un límite. Es exacta para las pruebas independientes, pero por lo demás puede ser poco o demasiado conservadora, dependiendo del modelo.
1 votos
Dos pruebas no son independientes si la probabilidad de un error de tipo I para una prueba se correlaciona con la de la otra prueba. Por ejemplo, suponga que realiza un experimento con una condición de control y dos condiciones de prueba. Las dos pruebas que comparan cada condición de prueba con la condición de control no son independientes. Puede ver esto considerando lo que ocurre si por casualidad obtiene un valor extremo para la condición de control. Esto haría que las dos pruebas tuvieran más probabilidades de ser estadísticamente significativas.