Evidentemente, esto sería una auténtica pesadilla en la práctica, pero supongamos que se puede hacer: nombramos a un sultán estadístico y todos los que realizan una prueba de hipótesis informan de sus resultados brutos $p$ -valores a este déspota. Realiza algún tipo de corrección global (literalmente) de comparaciones múltiples y responde con las versiones corregidas.
¿Iniciaría esto una edad de oro de la ciencia y la razón? No, probablemente no.
Empecemos por considerar un par de hipótesis, como en un $t$ -prueba. Medimos alguna propiedad de dos grupos y queremos distinguir entre dos hipótesis sobre esa propiedad: $$\begin{align} H_0:& \textrm{ The groups have the same mean.} \\ H_A:& \textrm{ The groups have different means.} \end{align}$$ En una muestra finita, es poco probable que las medias sean exactamente iguales aunque $H_0$ es realmente cierto: el error de medición y otras fuentes de variabilidad pueden hacer variar los valores individuales. Sin embargo, el $H_0$ La hipótesis nula es, en cierto sentido, "aburrida", y los investigadores suelen preocuparse por evitar una situación de "falso positivo" en la que afirman haber encontrado una diferencia entre los grupos cuando en realidad no existe ninguna. Por lo tanto, sólo llamamos "significativos" a los resultados si parecen improbables bajo la hipótesis nula y, por convención, ese umbral de improbabilidad se fija en el 5%.
Esto se aplica a una sola prueba. Supongamos ahora que decide realizar varias pruebas y está dispuesto a aceptar un 5% de posibilidades de aceptar por error $H_0$ para cada uno. Por lo tanto, con un número suficiente de pruebas, es casi seguro que empezarás a cometer errores, y muchos.
Los distintos enfoques de las correcciones múltiples pretenden ayudarle a volver a una tasa de error nominal que ya ha decidido tolerar para las pruebas individuales. Lo hacen de formas ligeramente diferentes. Los métodos que controlan el Tasa de error por familia como el Bonferroni , Sidak y Procedimientos de Holm decir: "Usted quería un 5% de posibilidades de cometer un error en una sola prueba, así que nos aseguraremos de que no haya más de un 5% de posibilidades de cometer errores en todas sus pruebas". Los métodos que controlan el Tasa de falsos descubrimientos en lugar de ello, decir: "Parece que te parece bien equivocarte hasta un 5% de las veces con una sola prueba, así que nos aseguraremos de que no más del 5% de tus "llamadas" sean erróneas al hacer varias pruebas". (¿Ve la diferencia?)
Ahora, supongamos que se intenta controlar la tasa de error por familia de todo pruebas de hipótesis jamás realizadas. Esencialmente estás diciendo que quieres una probabilidad <5% de rechazar falsamente cualquier hipótesis nula, nunca. Esto establece un umbral imposiblemente estricto y la inferencia sería efectivamente inútil, pero hay un problema aún más apremiante: su corrección global significa que está probando "hipótesis compuestas" absolutamente sin sentido como
$$\begin{align} H_1: &\textrm{Drug XYZ changes T-cell count } \wedge \\ &\textrm{Grapes grow better in some fields } \wedge&\\ &\ldots \wedge \ldots \wedge \ldots \wedge \ldots \wedge \\&\textrm{Men and women eat different amounts of ice cream} \end{align} $$
Con las correcciones de la tasa de falsos descubrimientos, el problema numérico no es tan grave, pero sigue siendo un lío desde el punto de vista filosófico. En cambio, tiene sentido definir una "familia" de pruebas relacionadas, como una lista de genes candidatos durante un estudio genómico, o un conjunto de intervalos de frecuencia temporal durante un análisis espectral. Adaptar la familia a una pregunta específica le permite interpretar su límite de error de tipo I de forma directa. Por ejemplo, podría mirar un conjunto de valores p corregidos por el FWER de sus propios datos genómicos y decir "Hay una probabilidad <5% de que cualquiera de estos genes sean falsos positivos". Esto es mucho mejor que una garantía nebulosa que cubre las inferencias realizadas por personas que no te importan sobre temas que no te interesan.
La otra cara de la moneda es que la elección adecuada de "familia" es discutible y un poco subjetiva (¿todos los genes son una familia o sólo puedo considerar las quinasas?), pero debería estar informada por su problema y no creo que nadie haya defendido seriamente la definición de las familias de forma tan extensa.
¿Qué hay de Bayes?
El análisis bayesiano ofrece una alternativa coherente a este problema, si se está dispuesto a alejarse un poco del marco de error frecuentista de tipo I/tipo II. Comenzamos con una previa no comprometida sobre... bueno... todo. Cada vez que aprendemos algo, esa información se combina con la anterior para generar una distribución posterior, que a su vez se convierte en la anterior para la próxima vez que aprendamos algo. Esto te da una regla de actualización coherente y puedes comparar diferentes hipótesis sobre cosas específicas calculando el factor de Bayes entre dos hipótesis. Es de suponer que se podrían factorizar grandes partes del modelo, lo que no haría esto particularmente oneroso.
Existe un persistente... meme de que los métodos bayesianos no requieren correcciones de comparaciones múltiples. Desgraciadamente, las probabilidades posteriores no son más que otra estadística de prueba para los frecuentistas (es decir, la gente que se preocupa por los errores de tipo I/II). No tienen ninguna propiedad especial que controle este tipo de errores (¿Por qué habrían de hacerlo?) Por lo tanto, vuelves a estar en territorio intratable, pero quizás en un terreno ligeramente más fundamentado.
El contraargumento bayesiano es que debemos centrarnos en lo que podemos saber ahora y por lo tanto estas tasas de error no son tan importantes.
Sobre la reproducibilidad
Parece que está sugiriendo que una incorrecta corrección de comparaciones múltiples es la razón de muchos resultados incorrectos/irreproducibles. Mi opinión es que es más probable que haya otros factores. Uno obvio es que la presión por publicar lleva a la gente a evitar los experimentos que realmente ponen de relieve su hipótesis (es decir, un mal diseño experimental).
Por ejemplo, [en este experimento] (parte de la iniciativa de (ir)reproducibilidad de Amgen 6 Resulta que los ratones tenían mutaciones en otros genes además del gen de interés. A Andrew Gelman también le gusta hablar de la Jardín de senderos que se bifurcan En este caso, los investigadores eligen un plan de análisis (razonable) basado en los datos, pero podrían haber realizado otros análisis si los datos fueran diferentes. Esto infla $p$ -de forma similar a las comparaciones múltiples, pero es mucho más difícil de corregir a posteriori. El análisis descaradamente incorrecto también puede desempeñar un papel, pero mi sensación (y esperanza) es que eso está mejorando gradualmente.