12 votos

¿Cómo estiman los procedimientos de FDR una tasa de falso descubrimiento sin un modelo de tasas base?

¿Alguien puede explicar cómo los procedimientos de FDR son capaces de estimar un FDR sin un modelo / suposición de la tasa base de los verdaderos positivos?

6voto

md1337 Puntos 133

Creo que es una muy buena pregunta; demasiada gente usa el procedimiento Benjamini-Hochberg (abreviado BH; posiblemente el procedimiento más popular para controlar el FDR) como caja negra. De hecho, hay una suposición subyacente que hace en las estadísticas y está muy bien escondida en la definición de los valores p!

Para un valor p bien definido $P$ sostiene que $P$ está uniformemente distribuida ( $P \sim U[0,1]$ ) bajo la hipótesis nula. A veces incluso podría ser que $ \Pr [P \leq t] \leq t$ es decir, que $P$ es estocásticamente más pequeño que el uniforme, pero esto sólo hace que los procedimientos sean más conservadores (y por lo tanto aún válidos). Por lo tanto, al calcular sus valores p, usando una prueba t o realmente cualquier prueba de su elección, está proporcionando la información sobre la distribución bajo la hipótesis nula.

Pero note aquí que seguí hablando de la hipótesis nula; así que lo que mencionó sobre el conocimiento de la tasa base de los verdaderos positivos es no sólo se necesita conocer la tasa base de los falsos positivos! ¿Por qué es esto?

Deje que $R$ denotan el número de todas las hipótesis rechazadas (positivas) y $V$ los falsos positivos, entonces:

$$ \text {FDR} = \mathbb E \left [ \frac {V}{ \max (R,1)} \right ] \approx \frac { \mathbb E[V]}{ \mathbb E[R]}$$

Así que para estimar el FDR necesitas una forma de estimar $ \mathbb E[R]$ , $ \mathbb E[V]$ . Ahora veremos las reglas de decisión que rechazan todos los valores p $ \leq t$ . Para dejarlo claro en la anotación, también escribiré $FDR(t),R(t),V(t)$ para las cantidades correspondientes/variables aleatorias de dicho procedimiento.

Desde $ \mathbb E[R(t)]$ es sólo la expectativa del número total de rechazos, puedes estimarlo imparcialmente por el número de rechazos que observas, así que $ \mathbb E[R(t)] \approx R(t)$ es decir, simplemente contando cuántos de sus valores p son $ \leq t$ .

Ahora, ¿qué hay de $ \mathbb E[V]$ ? Bien, asume $m_0$ de tu $m$ Las hipótesis totales son hipótesis nulas, entonces por la uniformidad (o subuniformidad) de los valores p bajo el nulo se obtiene:

$$ \mathbb E[V(t)] = \sum_ {i \text { null}} \Pr [P_i \leq t] \leq m_0 t$$

Pero todavía no sabemos $m_0$ pero sabemos que $m_0 \leq m$ así que un límite superior conservador sería $ \mathbb E[V(t)] \leq m t$ . Por lo tanto, ya que sólo necesitamos un límite superior en el número de falsos positivos, ¡es suficiente con que sepamos su distribución! Y esto es exactamente lo que hace el procedimiento BH.

Así que, mientras que el comentario de Aarong Zeng de que "el procedimiento de BH es una forma de controlar el FDR en el nivel q dado. No se trata de estimar el FDR" no es falso, ¡también es muy engañoso! El procedimiento BH en realidad hace estimar la FDR para cada umbral dado $t$ . Y luego elige el umbral más grande, de tal manera que el FDR estimado está por debajo de $ \alpha $ . De hecho, el "valor p ajustado" de la hipótesis $i$ es esencialmente sólo una estimación de la FDR en el umbral $t=p_i$ (hasta la isotonización). Creo que el algoritmo estándar de BH oculta este hecho un poco, pero es fácil mostrar la equivalencia de estos dos enfoques (también llamado "teorema de equivalencia" en la literatura de pruebas múltiples).

Como observación final, existen métodos como el procedimiento de Storey que incluso estiman $m_0$ de los datos; esto puede aumentar la potencia en un diminuto porcentaje. También en principio tiene usted razón, se podría también modelar la distribución bajo la alternativa (su verdadera tasa base positiva) para obtener procedimientos más poderosos; pero hasta ahora la investigación de pruebas múltiples se ha centrado principalmente en mantener el control del error de tipo I en lugar de maximizar la potencia. Una dificultad sería también que en muchos casos cada una de sus verdaderas alternativas tendrá una distribución alternativa diferente (por ejemplo, diferente potencia para diferentes hipótesis), mientras que bajo la nula todos los valores p tienen la misma distribución. Esto hace que la modelización de la verdadera tasa positiva sea aún más difícil.

5voto

JohnRos Puntos 3211

Como sugiere @air, el procedimiento Benjamini-Hochberg (BH) garantiza el control de FDR. No tiene como objetivo estimarlo. Por lo tanto, requiere una mera suposición de dependencia débil entre las estadísticas de prueba. [1,2]

Los métodos que tienen por objeto estimar la FDR [por ejemplo, 3,4,5] requieren algunas suposiciones sobre el proceso generativo para poder estimarlo. Típicamente asumen que las estadísticas de prueba son independientes. También supondrán algo sobre la distribución nula de las estadísticas de prueba. Las desviaciones de esta distribución nula, junto con el supuesto de independencia, pueden atribuirse por tanto a los efectos, y puede estimarse el FDR.

Nótese que estas ideas reaparecen en la literatura de detección de novedades semisupervisadas. [6].

[1] Benjamini, Y., y Y. Hochberg. "Controlando la tasa de falsos descubrimientos: Un acercamiento práctico y poderoso a las pruebas múltiples". JOURNAL-REAL SOCIEDAD ESTADÍSTICA SERIE B 57 (1995): 289-289.

[2] Benjamini, Y., y D. Yekutieli. "El control de la tasa de falsos descubrimientos en pruebas múltiples bajo dependencia". ANALES DE ESTADÍSTICA 29, no. 4 (2001): 1165–88.

3] Storey, J.D. "Un acercamiento directo a las tasas de falsos descubrimientos". Journal Of The Royal Statistical Society Serie B 64, no. 3 (2002): 479-98. doi:10.1111/1467-9868.00346.

[4] Efron, B. "Microarrays, Bayes Empíricos y el Modelo de Dos Grupos". Ciencia Estadística 23, no. 1 (2008): 1-22.

[5] Jin, Jiashun y T. Tony Cai. "Estimación de los efectos nulos y la proporción de los efectos no nulos en comparaciones múltiples a gran escala". Journal of the American Statistical Association 102, no. 478 (1 de junio de 2007): 495-506. doi:10.1198/016214507000000167.

[6] Claesen, Marc, Jesse Davis, Frank De Smet y Bart De Moor. "Evaluando los clasificadores binarios usando sólo datos positivos y no etiquetados". arXiv:1504.06837 [cs, Stat], 26 de abril de 2015. http://arxiv.org/abs/1504.06837 .

1voto

LacusVir Puntos 11

Cuando se desconoce el verdadero modelo subyacente, no podemos calcular la FDR, pero podemos estimar el valor de la FDR por prueba de permutación . Básicamente el procedimiento de prueba de permutación es hacer la prueba de hipótesis varias veces cambiando el vector de la variable de resultado con sus permutaciones. También se puede hacer en base a las permutaciones de las muestras, pero no tan común como la anterior.

El periódico aquí revisa el procedimiento estándar de permutación para la estimación de FDR, y también propuso un nuevo estimador de FDR. Debería ser capaz de abordar su pregunta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X