32 votos

¿Por qué no se aplican correcciones de hipótesis múltiples a todos los experimentos desde el principio?

Sabemos que debemos aplicar correcciones de tipo Benjamini Hochberg para las pruebas de hipótesis múltiples a los experimentos basados en un único conjunto de datos, con el fin de controlar la tasa de falsos descubrimientos, de lo contrario todo Los experimentos que dan un resultado positivo podrían ser falsos.

Pero, ¿por qué no aplicamos este mismo principio a todos los experimentos desde el principio de los tiempos, independientemente de la procedencia de los datos?

Al fin y al cabo, se sabe que más de la mitad de los resultados científicos publicados que se consideran "significativos" son falsos e irreproducibles, y no hay ninguna razón por la que no pueda ser fácilmente el 100%. Como los científicos sólo tienden a publicar resultados positivos, no tenemos ni idea del número de resultados negativos, por lo que no tenemos ni idea de si lo que publicamos son sólo falsos positivos, es decir, resultados positivos que han surgido por pura casualidad bajo la hipótesis nula. Mientras tanto, no hay nada que diga que las matemáticas detrás de las correcciones de las pruebas de hipótesis múltiples deban aplicarse sólo a los resultados del mismo conjunto de datos, y no a los resultados de todos los datos experimentales adquiridos a lo largo del tiempo.

Parece que toda la ciencia se ha convertido en una gran expedición de pesca basada en hipótesis falsas o débiles, así que ¿cómo podemos controlar esto?

¿Cómo podemos controlar la tasa de falsos descubrimientos, si todo lo que publicamos son resultados independientes tomados sin aplicar ninguna corrección para las pruebas de hipótesis múltiples sobre todos los experimentos realizados hasta la fecha?

Es posible para controlar la tasa de falsos descubrimientos sin ¿aplicando alguna corrección de este tipo?

26voto

Rob Allen Puntos 486

Evidentemente, esto sería una auténtica pesadilla en la práctica, pero supongamos que se puede hacer: nombramos a un sultán estadístico y todos los que realizan una prueba de hipótesis informan de sus resultados brutos $p$ -valores a este déspota. Realiza algún tipo de corrección global (literalmente) de comparaciones múltiples y responde con las versiones corregidas.

¿Iniciaría esto una edad de oro de la ciencia y la razón? No, probablemente no.


Empecemos por considerar un par de hipótesis, como en un $t$ -prueba. Medimos alguna propiedad de dos grupos y queremos distinguir entre dos hipótesis sobre esa propiedad: $$\begin{align} H_0:& \textrm{ The groups have the same mean.} \\ H_A:& \textrm{ The groups have different means.} \end{align}$$ En una muestra finita, es poco probable que las medias sean exactamente iguales aunque $H_0$ es realmente cierto: el error de medición y otras fuentes de variabilidad pueden hacer variar los valores individuales. Sin embargo, el $H_0$ La hipótesis nula es, en cierto sentido, "aburrida", y los investigadores suelen preocuparse por evitar una situación de "falso positivo" en la que afirman haber encontrado una diferencia entre los grupos cuando en realidad no existe ninguna. Por lo tanto, sólo llamamos "significativos" a los resultados si parecen improbables bajo la hipótesis nula y, por convención, ese umbral de improbabilidad se fija en el 5%.

Esto se aplica a una sola prueba. Supongamos ahora que decide realizar varias pruebas y está dispuesto a aceptar un 5% de posibilidades de aceptar por error $H_0$ para cada uno. Por lo tanto, con un número suficiente de pruebas, es casi seguro que empezarás a cometer errores, y muchos.

Los distintos enfoques de las correcciones múltiples pretenden ayudarle a volver a una tasa de error nominal que ya ha decidido tolerar para las pruebas individuales. Lo hacen de formas ligeramente diferentes. Los métodos que controlan el Tasa de error por familia como el Bonferroni , Sidak y Procedimientos de Holm decir: "Usted quería un 5% de posibilidades de cometer un error en una sola prueba, así que nos aseguraremos de que no haya más de un 5% de posibilidades de cometer errores en todas sus pruebas". Los métodos que controlan el Tasa de falsos descubrimientos en lugar de ello, decir: "Parece que te parece bien equivocarte hasta un 5% de las veces con una sola prueba, así que nos aseguraremos de que no más del 5% de tus "llamadas" sean erróneas al hacer varias pruebas". (¿Ve la diferencia?)


Ahora, supongamos que se intenta controlar la tasa de error por familia de todo pruebas de hipótesis jamás realizadas. Esencialmente estás diciendo que quieres una probabilidad <5% de rechazar falsamente cualquier hipótesis nula, nunca. Esto establece un umbral imposiblemente estricto y la inferencia sería efectivamente inútil, pero hay un problema aún más apremiante: su corrección global significa que está probando "hipótesis compuestas" absolutamente sin sentido como

$$\begin{align} H_1: &\textrm{Drug XYZ changes T-cell count } \wedge \\ &\textrm{Grapes grow better in some fields } \wedge&\\ &\ldots \wedge \ldots \wedge \ldots \wedge \ldots \wedge \\&\textrm{Men and women eat different amounts of ice cream} \end{align} $$

Con las correcciones de la tasa de falsos descubrimientos, el problema numérico no es tan grave, pero sigue siendo un lío desde el punto de vista filosófico. En cambio, tiene sentido definir una "familia" de pruebas relacionadas, como una lista de genes candidatos durante un estudio genómico, o un conjunto de intervalos de frecuencia temporal durante un análisis espectral. Adaptar la familia a una pregunta específica le permite interpretar su límite de error de tipo I de forma directa. Por ejemplo, podría mirar un conjunto de valores p corregidos por el FWER de sus propios datos genómicos y decir "Hay una probabilidad <5% de que cualquiera de estos genes sean falsos positivos". Esto es mucho mejor que una garantía nebulosa que cubre las inferencias realizadas por personas que no te importan sobre temas que no te interesan.

La otra cara de la moneda es que la elección adecuada de "familia" es discutible y un poco subjetiva (¿todos los genes son una familia o sólo puedo considerar las quinasas?), pero debería estar informada por su problema y no creo que nadie haya defendido seriamente la definición de las familias de forma tan extensa.


¿Qué hay de Bayes?

El análisis bayesiano ofrece una alternativa coherente a este problema, si se está dispuesto a alejarse un poco del marco de error frecuentista de tipo I/tipo II. Comenzamos con una previa no comprometida sobre... bueno... todo. Cada vez que aprendemos algo, esa información se combina con la anterior para generar una distribución posterior, que a su vez se convierte en la anterior para la próxima vez que aprendamos algo. Esto te da una regla de actualización coherente y puedes comparar diferentes hipótesis sobre cosas específicas calculando el factor de Bayes entre dos hipótesis. Es de suponer que se podrían factorizar grandes partes del modelo, lo que no haría esto particularmente oneroso.

Existe un persistente... meme de que los métodos bayesianos no requieren correcciones de comparaciones múltiples. Desgraciadamente, las probabilidades posteriores no son más que otra estadística de prueba para los frecuentistas (es decir, la gente que se preocupa por los errores de tipo I/II). No tienen ninguna propiedad especial que controle este tipo de errores (¿Por qué habrían de hacerlo?) Por lo tanto, vuelves a estar en territorio intratable, pero quizás en un terreno ligeramente más fundamentado.

El contraargumento bayesiano es que debemos centrarnos en lo que podemos saber ahora y por lo tanto estas tasas de error no son tan importantes.


Sobre la reproducibilidad

Parece que está sugiriendo que una incorrecta corrección de comparaciones múltiples es la razón de muchos resultados incorrectos/irreproducibles. Mi opinión es que es más probable que haya otros factores. Uno obvio es que la presión por publicar lleva a la gente a evitar los experimentos que realmente ponen de relieve su hipótesis (es decir, un mal diseño experimental).

Por ejemplo, [en este experimento] (parte de la iniciativa de (ir)reproducibilidad de Amgen 6 Resulta que los ratones tenían mutaciones en otros genes además del gen de interés. A Andrew Gelman también le gusta hablar de la Jardín de senderos que se bifurcan En este caso, los investigadores eligen un plan de análisis (razonable) basado en los datos, pero podrían haber realizado otros análisis si los datos fueran diferentes. Esto infla $p$ -de forma similar a las comparaciones múltiples, pero es mucho más difícil de corregir a posteriori. El análisis descaradamente incorrecto también puede desempeñar un papel, pero mi sensación (y esperanza) es que eso está mejorando gradualmente.

7voto

peuhp Puntos 788

Creo que usted pinta deliberadamente una visión pesimista de la ciencia producida por la estadística. De hecho, en mi opinión, la estadística no es sólo un conjunto de herramientas que proporcionan valores p. También es un estado de rigor, cuidado y alerta sobre algunos posibles efectos que implica el procedimiento de inducción científica... y aunque a mi entender, todo lo que afirmas es más o menos cierto, he aquí algunas de mis opiniones sobre por qué tenemos algunas garantías sobre el conocimiento que producimos:

  • En primer lugar, en general, no se debe llegar a una conclusión sólo bajo el argumento de un valor p inferior a un umbral determinado.

  • En segundo lugar, hasta donde yo sé, los argumentos del tipo "más de la mitad de los resultados científicos publicados son erróneos" son pertinentes e interesantes, pero se calculan sobre la base de valores p aproximadamente iguales a 0,05 (véase, por ejemplo Confusión sobre los valores p y la tasa de falsos descubrimientos ). Para valores de p más bajos, el efecto es mucho menor que el anunciado y, en la práctica, no es raro obtener valores de p muy inferiores a 0,05. Además, muchas veces una hipótesis determinada es confirmada por varias subhipótesis, lo que vuelve a reducir los efectos anunciados.

  • En tercer lugar, la cuestión de la reproducibilidad es genuina, pero también es un problema que debe tratar el estadístico identificando y tratando los efectos de confusión, los diseños de grupo... y esto puede hacerse muy bien si se hace con pericia y rigor.

  • Por último, tal y como yo lo entiendo, un estudio estadístico arquetípico debe basarse más o menos en los siguientes 5 pasos sucesivos:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)

    Esta directriz general nos impide realizar expediciones de pesca como herramienta para elaborar conclusiones generales.

Para concluir, diría que su intención de protegernos contra las malas conclusiones científicas sobrepasando los umbrales de los valores p es un poco ilusoria. Yo preferiría protegernos contra las malas conclusiones científicas garantizando y fomentando los análisis advertidos y adecuados (y me gustaría pensar que esta es una razón por la que hay tantas personas cualificadas que ayudan a los demás en este sitio).

0voto

Krishna Thota Puntos 115

¿Es posible controlar la tasa de falsos descubrimientos sin aplicar alguna corrección de este tipo?

Sí. Esto es lo que hace un umbral en los valores p: fija la tasa de falsos descubrimientos en ese umbral. A la larga, en todas las pruebas realizadas sobre hipótesis nulas verdaderas, sólo $100\,a$ por ciento tendrá un valor p inferior a $a$ .

Recuerde que las tasas de error (frecuentista) no se refieren en absoluto a ninguna probabilidad sobre una hipótesis comprobada por cualquier prueba individual, sino como métodos para realizar pruebas con tasas de fracaso garantizadas a largo plazo. La corrección por comparaciones múltiples es otro método para garantizar las tasas de error a largo plazo: uno para construir métodos compuestos que contengan múltiples pruebas de modo que se mantenga alguna tasa de error a largo plazo garantizada para el compuesto.

Si realiza un único experimento con 100 pruebas e informa de que 5 de ellas se pronunciaron en contra del nulo, afirmando así que ha observado algún resultado real, nadie se impresionará, sabiendo que de media, entre 100 pruebas de nulos verdaderos, el 5% se rechazará; el método que ha empleado, "realizar 100 pruebas e informar si alguna de ellas cumple el umbral del 5%", tiene una tasa de fracaso superior al 5%. Por lo tanto, puede optar por controlar las comparaciones múltiples e informar de que, por ejemplo, 2 de 100 pruebas tuvieron valores p inferiores a (5 / 100 == 0,05) %. Ahora emplea un método que tiene de nuevo una tasa de fracaso garantizada (por el error de informar de al menos una prueba significativa aunque ninguna hipótesis sea falsa) del 5%.

Es decir, la corrección de errores FWE/Family-wise controla la tasa de error global; que si hace n pruebas, sólo $a$ veces encontrará un efecto significativo si todas sus pruebas son de hipótesis verdaderas. Es decir, si literalmente cada una de las hipótesis que alguien se molestara en probar fuera cierta, y todo el mundo hiciera siempre más de 1 prueba por estudio, y todo el mundo aplicara el control FWE a nivel de estudio, el 5% de los estudios reportarían resultados significativos (y el 5% de todas las pruebas individuales serían significativas bajo su original , umbrales no corregidos). Por el contrario, si todo el mundo probara siempre 100 hipótesis verdaderas por estudio y no aplicara FEW, el número de experimentos que informaran de efectos significativos superaría la tasa de error garantizada del 5%. (Contrasta con el FDR/tasa de detección de falsos, que no es un método que garantice la tasa de notificación de cualquier prueba significativa en un estudio de múltiples pruebas de hipótesis verdaderas).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X