8 votos

¿Qué tiene de malo la ''corrección de pruebas múltiples'' en comparación con las ''pruebas conjuntas''?

Me pregunto por qué se dice que las correcciones de las pruebas múltiples son ''arbitrarias'' y que se basan en una filosofía incoherente que

la veracidad de una afirmación depende de las demás hipótesis que se sostengan

ver, por ejemplo, las respuestas y comentarios a ¿Qué pasa con los ajustes de Bonferroni? y en particular la discusión entre @FrankHarrell y @Bonferroni.

Supongamos (para simplificar y facilitar la exposición) que tenemos dos poblaciones normales (independientes), independientes y con desviaciones estándar conocidas pero con medias desconocidas. Digamos (sólo como ejemplo) que estas desviaciones típicas son resp. $\sigma_1=2, \sigma_2=3$ .

Prueba conjunta

Supongamos que queremos probar la hipótesis $H_0: \mu_1 = 2 \& \mu_2=2$ frente a $H_1: \mu_1 \ne 2 | \mu_2 \ne 2$ con un nivel de significación de $\alpha=0.05$ (el símbolo $\&$ que significa "y" mientras que $|$ significa "o").

También tenemos un resultado aleatorio $x_1$ de la primera población y $x_2$ de la segunda población.

si $H_0$ es verdadera, entonces la primera variable aleatoria $X_1 \sim N(\mu_1=2,\sigma_1=2)$ y el segundo $X_2 \sim N(\mu_2=2,\sigma_2=3)$ como asumimos la independencia se sostiene que la variable aleatoria $X^2 = \frac{(X_1-\mu_1)^2}{\sigma_1^2} + \frac{(X_2-\mu_2)^2}{\sigma_2^2}$ es $\chi^2$ con $df=2$ . Podemos utilizar este $X^2$ como estadística de prueba y aceptaremos $H_0$ si, para los resultados observados $x_1$ y $x_2$ sostiene que $\frac{(x_1-\mu_1)^2}{\sigma_1^2} + \frac{(x_2-\mu_2)^2}{\sigma_2^2} \le \chi^2_\alpha$ . En otras palabras, la región de aceptación para esta prueba es una elipse centrada en $(\mu_1, \mu_2)$ y tenemos una masa de densidad de $1-\alpha$ "encima" de esta elipse.

Pruebas múltiples

Con las pruebas múltiples haremos dos pruebas independientes y ''ajustaremos'' el nivel de significación. Así que realizaremos dos pruebas independientes $H_0^{(1)}: \mu_1 = 2$ frente a $H_1^{(1)}: \mu_1 \ne 2$ y una segunda prueba $H_0^{(2)}: \mu_2 = 2$ frente a $H_1^{(2)}: \mu_2 \ne 2$ pero con un nivel de significación ajustado $\alpha^{adj.}$ que es tal que $1-(1-\alpha^{adj.})^2=0.05$ o $(1-\alpha^{adj.})^2=0.95$ o $1-\alpha^{adj.}=\sqrt{0.95}$ o $\alpha^{adj.}=1-\sqrt{0.95}$ que da como resultado $\alpha^{adj.}=0.02532057$ .

En este caso aceptaremos $H_0^{(1)}$ y $H_0^{(1)}$ (y ambos juntos son equivalentes a nuestro ''original'' $H_0: \mu_1 = 2 \& \mu_2=2$ ) siempre que $\frac{x_1 - \mu_1}{\sigma_1} \le z_{\alpha^{adj.}} $ y $\frac{x_2 - \mu_2}{\sigma_2} \le z_{\alpha^{adj.}} $

Así que concluimos que, con pruebas múltiples, la región de aceptación para $x_1,x_2$ se ha convertido en un rectángulo con centro $(\mu_1,\mu_2)$ y con una masa de probabilidad de $1-\alpha$ encima.

Conclusión

Así, encontramos que, para una unión ( $\chi^2$ ) la forma geométrica de la región de aceptación es una elipse, mientras que con la prueba múltiple es un rectángulo. La masa de densidad ''encima'' de la región de aceptación es en ambos casos de 0,95.

Preguntas

¿Cuál es entonces el problema de las pruebas múltiples? Si existe tal problema, entonces (ver supra) debería existir el mismo problema para las pruebas conjuntas o no? La razón no puede ser que prefiramos las elipses a los rectángulos, ¿verdad?

3voto

zowens Puntos 1417

Creo que no se ha tenido en cuenta el punto de vista de @FrankHarrell aquí (actualmente no tengo acceso al documento de Perneger que se discute en el hilo enlazado, por lo que no puedo comentarlo).

El debate no es de matemáticas, es de filosofía. Todo lo que has escrito aquí es matemáticamente correcto, y claramente la corrección de Bonferroni permite controlar la tasa de error de tipo I familiar, como también lo hace tu "prueba conjunta". El debate no es en absoluto sobre los detalles de Bonferroni en sí, sino sobre los ajustes de las pruebas múltiples en general.

Todo el mundo conoce un argumento a favor de las correcciones de pruebas múltiples, como ilustra el famoso XKCD cómic de gominolas :

enter image description here

He aquí un contraargumento: si desarrollara una teoría realmente convincente prediciendo que específicamente las gominolas verdes deberían causar acné; y si realizara un experimento para comprobarlo y obtuviera un resultado agradable y claro $p=0.003$ ; y si resulta que algún otro estudiante de doctorado en el mismo laboratorio, por la razón que sea, realizó diecinueve pruebas para todos los demás colores de gominolas obteniendo $p>05$ cada vez; y si ahora nuestro asesor quiere poner todo eso en un solo papel entonces Yo estaría totalmente en contra de "ajustar" mi valor p de $p=0.003$ a $p=0.003\cdot 20 = 0.06$ .

Obsérvese que los datos experimentales en el Argumento y en el Contraargumento pueden ser exactamente los mismos. Pero la interpretación difiere. Esto está bien, pero ilustra que no se debe obligado realizando múltiples correcciones de las pruebas en todas las situaciones . En última instancia, es una cuestión de juicio. Lo más importante es que los escenarios de la vida real no suelen ser tan claros como aquí y tienden a estar entre el número 1 y el número 2. Véase también el ejemplo de Frank en su respuesta .

0 votos

Debo decir que no entiendo del todo el punto aquí y realmente me gustaría entender así que trato de hacer mi punto; creo que todo depende de su hipótesis que está probando, no veo la hipótesis exacta que se está probando para el 'otro estudiante de doctorado' en su ejemplo y en mi opinión todo depende de eso. Intenté explicar mi punto de vista en la sección "editar" al final de esta respuesta, donde tomo el ejemplo del Sr. Harrell y trato de hacer mi punto: stats.stackexchange.com/questions/120362/

1 votos

Claro que depende de la hipótesis, @fcop. El problema es que en la vida real las hipótesis no siempre son tan claras como en las matemáticas. Alguien puede tener una "hipótesis" de que el tratamiento A superará al tratamiento B. Pero luego se recogen varias medidas de rendimiento, y comienza el habitual jardín de senderos que se bifurcan. Si he registrado estúpidamente 10 medidas y las pruebo todas, entonces es claramente la hipótesis nº 1 de mi respuesta. Si tengo una clara elección a priori, entonces es el #2. Pero por lo general tengo algunas preferencias de la corazonada, pero no estoy realmente seguro y luego mi asesor sugiere para tratar de que otra medida también, etc., etc.

0 votos

Sí, pero creo que ''en la vida real'' hay una explicación perfectamente válida para el ejemplo de las judías amarillas, sólo que es demasiado larga para ponerla en un comentario, ¿puedo ponerla en una respuesta?

2voto

fcop Puntos 2891

@amoeba: sobre el ejemplo de las gominolas me gustaría argumentar lo siguiente (ojo, sólo quiero entender):

Digamos que hay 20 colores diferentes de gominolas, llamémoslas $c_1, c_2, \dots , c_{20}$ y que $c_{10}$ sea el color "verde".

Así, con su ejemplo los valores p para el color $i$ (lo anotamos como $p^{(i)}$ ) será $p^{(i)} > 0.05$ cuando $i \ne 10$ y $p^{(10)}=0.003$ .

  1. Teoría 1: las gominolas verdes provocan acné

    Si has desarrollado la teoría de que las gominolas verdes causan acné, entonces debes probar la hipótesis

    $H_0$ : ''gominolas de colores $c_{10}$ no tienen ningún efecto sobre el acné'' frente a $H_1$ : ''gominolas de colores $c_{10}$ causan acné''. Esto es obviamente no un problema de pruebas múltiples, por lo que no hay que ajustar los valores p.

  2. Teoría 2: sólo las gominolas verdes provocan acné

    En ese caso deberías tener '' $H_1$ : las gominolas verdes causan acné Y las gominolas de color $c_i, i\ne 10$ no causan acné'' y $H_0$ es entonces ''las gominolas verdes no causan acné O $\exists i|i \ne 10$ de tal manera que los granos de color $c_i$ causan el acné''.

    Este es un problema de pruebas múltiples y requiere valores p ajustados.

  3. Teoría 3: las gominolas (de cualquier color) provocan acné

    En ese caso $H_1$ : ''gominolas de colores $c_1$ causan acné Y ''gominolas de color $c_2$ causan acné Y .... Y ''gominolas de colores $c_{20}$ causan acné'' y $H_0$ es lo contrario.

    Se trata de nuevo de un problema de pruebas múltiples.

  4. Teoría ...

Conclusión

En cualquier caso, se puede ver que estas teorías son fundamentalmente diferentes y la necesidad o no de ajustar el valor p depende de que , no en la ''filosofía'' Al menos eso es lo que yo entiendo.

P.D. para la reacción al ejemplo de @FrankHarrell ver ''EDITAR'' al final de mi respuesta a ¿Qué pasa con los ajustes de Bonferroni?

1 votos

Todo lo que escribes es correcto pero sólo es aplicable en la situación ideal del libro de texto cuando $H_0$ está formulada con precisión de antemano. En la práctica, la mayoría de las veces no es así. El ejemplo de las gominolas es un poco tonto, pero ahí va: la teoría es que las judías verdes provocan acné. Obsérvese que es vaga. Pruebas las gominolas verdes. Tu jefe te dice que pruebes también las de color oliva y las de color verde esmeralda. Tú obedeces. Ahora, encuentras p=0,02, p=0,3 y p=0,3. ¿Qué haces? ¿Corregir las tres pruebas? ¿O no? ¿Qué habrías hecho si, en cambio, fueran 0,3, 0,02 y 0,3?

0 votos

Tu jefe dice: hemos hecho tres experimentos, tenemos que usar Bonferroni, nada es significativo. Usted dice: pero yo ni siquiera quería probar el verde oliva y el verde esmeralda, así que no hace falta ninguna corrección, tengo un resultado significativo. Tenga en cuenta que la hipótesis de la investigación no era lo suficientemente precisa ("verdoso") para decirnos si hablaba de "verde" o de "verde+olivo+esmeralda". Todo depende de lo que hubieras hecho si sólo la esmeralda saliera significativa. ¿Lo ignoraría simplemente (no forma parte de su hipótesis), o utilizar Bonferroni (para intentar salvarla)? Es difícil decirlo de antemano.

0 votos

De nuevo, este ejemplo de las gominolas se vuelve un poco tonto a estas alturas ( este ejemplo es probablemente más sensato; podría editar mi respuesta para elaborarla), pero así es como se está haciendo la mayor parte de la investigación . La mayor parte es un poco entre confirmatoria y exploratoria.

1voto

Loren Pechtel Puntos 2212

Dejaré mi antigua respuesta al final para dar contexto a tu comentario.

Me parece que su experimento de pensamiento rectangular versus elipsoide da una pista interesante de un problema con las comparaciones múltiples: su ejemplo de prueba múltiple está en cierto sentido proyectando la información hacia abajo en la dimensionalidad, y luego de vuelta hacia arriba, perdiendo información en el proceso.

Es decir, la probabilidad conjunta es elipsoide precisamente porque se tienen dos distribuciones gaussianas, que darán lugar conjuntamente a un elipsoide, cuya circularidad está determinada por la varianza relativa de las dos distribuciones, y cuya pendiente del eje mayor está determinada por la correlación de los dos conjuntos de datos. Como se especifica que los dos conjuntos de datos son independientes, el eje mayor es paralelo al eje x o y.

Por otra parte, su ejemplo de dos pruebas proyecta las distribuciones gaussianas hacia abajo en un rango 1-D y cuando luego combina las dos pruebas en un solo gráfico 2-D (proyectando de nuevo hacia arriba), ha perdido información y el área resultante del 95% es un rectángulo en lugar del elipsoide apropiado. Y las cosas empeoran si los dos conjuntos de datos están correlacionados.

Así que me parece que esto podría ser una indicación de que las pruebas múltiples están perdiendo información debido a lo que podríamos describir como la proyección de la información hacia abajo - perdiendo información en el proceso - y luego de vuelta hacia arriba. Así que la forma de la densidad de la pseudo-articulación resultante es incorrecta y el intento de escalar sus ejes a través de algo como un Boneferroni no puede arreglar eso.

Así que en respuesta a su pregunta Yo diría que sí, que preferimos una elipse en nuestra distribución conjunta en lugar del incorrecto (por pérdida de información) rectángulo de nuestra pseudodistribución conjunta. O tal vez el problema es que usted ha creado una densidad pseudo-joint en primer lugar.

PERO tu pregunta es más filosófica que eso, y tengo que apoyar la respuesta de Amoeba de que no es simplemente una cuestión de matemáticas. Por ejemplo, ¿qué pasaría si preinscribes tu experimento de las gominolas con un preciso "gominolas verdes" como parte de tu hipótesis, en lugar de un impreciso "verdoso". Realizas el experimento y no encuentras ningún efecto estadísticamente significativo. Luego, tu asistente de laboratorio te muestra una foto que se tomaron frente a todas las dosis de gominolas: ¡qué tarea tan hercúlea han realizado! Y algo que dices lleva al asistente a darse cuenta de que eres parcialmente daltónico.

Resulta que lo que llamaste "verde" son en realidad gominolas verdes y aguamarina. ¡Con la ayuda de la foto, el asistente codifica correctamente los resultados y resulta que las gominolas verdes son significativas! ¡Tu carrera está salvada! Excepto que acabas de hacer una comparación múltiple: has dado dos golpes a los datos, y si hubieras encontrado la significación en primer lugar, nadie habría sabido lo contrario.

Esto no es una cuestión de que usted p-value-hacking. Fue una corrección honesta, pero su motivación no importa aquí.

Y si somos totalmente sinceros, "verde" no es más específico que "verdoso". En primer lugar, en cuanto al color real, y luego en cuanto al hecho de que el verde es muy probablemente una representación de otros ingredientes.

¿Y si nunca descubrieras tu error, pero por alguna razón tu ayudante replicara el experimento y los segundos resultados fueran significativos? Básicamente es el mismo caso, aunque hayas recogido dos conjuntos de datos. Llegados a este punto, empiezo a divagar, así que permíteme resumir diciendo de nuevo que creo que Amoeba tiene razón y que tu idea de "es o no es por las matemáticas" es técnicamente correcta, pero no abordable en el mundo real.

VIEJO respuesta: ¿Esta pregunta es realmente sobre la correlación? Estoy pensando más bien en una cuestión del tipo de la Distancia de Mahalanobis, en la que al mirar independientemente el 95% de x1 y el 95% de x2 se obtiene un rectángulo, pero esto supone que x1 y x2 no están correlacionados. Mientras que el uso de la distancia de Mahalanobis (una elipse con forma basada en la correlación entre x1 y x2) es superior. La elipse se extiende fuera del rectángulo, por lo que acepta algunos puntos que están fuera del rectángulo, pero también rechaza puntos dentro del rectángulo. Suponiendo que x1 y x2 están correlacionados hasta cierto punto.

Por otra parte, si supones que x1 y x2 tienen una correlación 0, ¿qué distribución estás suponiendo para cada una? Si es uniforme, obtendrías una región rectangular, si es normal obtendrás una región elíptica. De nuevo, esto sería independiente de las correcciones de pruebas múltiples o no.

1 votos

Gracias por su intento, pero se trata de pruebas múltiples (como, por ejemplo, Bonferroni y otras). Como dije en la respuesta, asumimos la independencia, así que no se trata de la correlación en esta pregunta. La dependencia sería una extensión interesante del problema, pero primero intentaré obtener algunas respuestas asumiendo la independencia.

0 votos

No entiendo el punto, nunca dije algo sobre verdoso ? Y estoy de acuerdo, si empezamos con ''qué pasa si eres daltónico'' entonces estoy de acuerdo en que se convierte en algo filosófico, por cierto, si el asistente descubre de alguna manera que soy daltónico, ¿no podría ser que el daltonismo lo tenga el asistente y no yo?

0 votos

@fcop: Re: "verdoso", puede que tú no lo menciones pero Amoeba sí lo hace en sus interacciones contigo en sus comentarios. Le doy la razón y digo que es incluso peor que el caso que hace. Quién es daltónico no importa, simplemente intentaba hacer un escenario más realista en el que una comparación múltiple podría hacerse pasar por otra cosa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X