La tasa de falsos descubrimientos (Benjamini-Hochberg) se usa típicamente en los "Grandes Datos", como los estudios genéticos que usan cientos de pruebas. Pero, ¿puede también utilizarse en un número menor de pruebas? Por ejemplo, mirando los resultados de dos grupos (hombres contra mujeres) en, digamos, 10-20 cuestionarios diferentes. ¿El procedimiento FDR pierde valor/significado/poder en estos casos?
Respuesta
¿Demasiados anuncios?Veo que la gente confunde esto todo el tiempo, también en este foro. Creo que esto se debe en gran medida a que en la práctica el procedimiento de Benjamini-Hochberg se utiliza como sinónimo de Tasa de Descubrimiento Falso (y como una caja negra para "ajustar" los valores p como lo solicitan los revisores para sus trabajos). Uno tiene que separar claramente el concepto de FDR del método de Benjamini-Hochberg. El primero es un error generalizado de tipo I, mientras que el segundo es un procedimiento de pruebas múltiples que controla ese error. Esto es muy análogo, por ejemplo, al procedimiento de FWER y Bonferroni.
De hecho, no hay ninguna razón inmediata por la que el número de hipótesis deba importar cuando se quiere utilizar los métodos de control de FDR. Sólo depende de su objetivo. En particular, suponga que está probando $m$ hipótesis y su procedimiento rechaza $R$ de ellos con $V$ falsos rechazos.
Ahora usas un FWER ( $= \Pr [V \geq 1]$ ) procedimiento de control si desea hacer no errores de tipo I. Por otra parte, se utiliza el $ \text {FDR}$ cuando es aceptable cometer algunos errores, siempre y cuando sean relativamente pocos en comparación con todos los rechazos $R$ que hiciste, es decir.
$$ \text {FDR} = \mathbb E \left [ \frac {V}{ \max {R,1}} \right ]$$
Por lo tanto, la respuesta a tu pregunta depende completamente de lo que quieres lograr y no hay ninguna razón intrínseca por la que los pequeños $m$ sería problemático. Sólo para ilustrar un poco más: El ejemplo de análisis de datos en el documento seminal de Benjamini-Hochberg de 1995 acaba de incluir $m=15$ hipótesis, y por supuesto también es válido para ese caso!
Por supuesto, hay una advertencia en mi respuesta: El procedimiento de BH sólo se hizo popular después de que los conjuntos de datos "masivos" (por ejemplo, los microarrays) comenzaron a estar disponibles. Y como mencionas, se utiliza típicamente para este tipo de aplicaciones de "grandes datos". Pero esto es solo porque en tales casos el $ \text {FDR}$ como criterio tiene más sentido, por ejemplo, porque es escalable y adaptable y facilita la investigación exploratoria. Por otra parte, el FWER es muy estricto, como lo exigen los estudios clínicos, etc. y lo castiga demasiado por explorar demasiadas opciones simultáneamente (es decir, no es muy adecuado para el trabajo exploratorio).
Ahora, supongamos que ha decidido que el FDR es el criterio apropiado para su solicitud. ¿Es Benjamini Hochberg la elección correcta para controlar el FDR cuando el número de hipótesis es bajo? Yo diría que sí, ya que es estadísticamente válido también para los bajos $m$ . Pero para el bajo $m$ podría, por ejemplo, utilizar también otro procedimiento, a saber El procedimiento de Benjamini y Liu que también controla el FDR. De hecho, los autores sugieren su uso (sobre Benjamini-Hochberg) cuando $m \leq 14$ y se espera que la mayoría de las hipótesis sean falsas. ¡Así que ves que hay opciones alternativas para el control de FDR! En la práctica, todavía usaría el BH sólo porque está muy bien establecido y porque los beneficios de usar Benjamini-Liu serán marginales en la mayoría de los casos si es que existen.
Por último, hay algunos procedimientos de control de FDR que deberían no uso para baja $m$ ! Estos incluyen todos los procedimientos basados en la fdr local, por ejemplo los implementados en los paquetes R "fdrtool" y "locfdr".