P.adjust no es misciting para BY. La referencia es al teorema 1.3 (prueba en la sección 5 de la página 1182) del documento:
Benjamini, Y., y Yekutieli, D. (2001). The control of the false discovery rate in multiple testing under dependency. Annals of Statistics 29, 1165-1188.
Como en este documento se discuten varios ajustes diferentes, la referencia en la página de ayuda (en el momento de escribir este artículo) para p.adjust() es algo oscura. El método está garantizado para controlar la FDR, en la tasa indicada, bajo la estructura de dependencia más general. Hay comentarios informativos en las diapositivas de Christopher Genovese en www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Obsérvese el comentario de la diapositiva 37, que se refiere al método del Teorema 1.3 en el documento BY 2001 [method='BY' con p.adjust()] que: "Desafortunadamente, esto es típicamente muy conservador, a veces incluso más que Bonferroni".
Ejemplo numérico: method='BY'
vs method='BH'
A continuación se compara el método='BY' con el método='BH', utilizando la función p.adjust() de R, para los valores p de la columna 2 de la Tabla 2 del artículo de Benjamini y Hochberg (2000):
> p <- c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0
Nota: El multiplicador que relaciona los valores BY con los valores BH es $\sum_{i=1}^m (1/i)$ , donde $m$ es el número de valores p. Los multiplicadores son, por ejemplo, los valores m = 30, 34, 226, 1674, 12365:
> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))
setNames(mult, paste(c('m =',rep('',5)), c(11, 30, 34, 226, 1674, 12365)) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000
Comprueba que para el ejemplo anterior, donde $m$ =34, el multiplicador es 4,118
0 votos
Pensé que el documento de 2001 establece las propiedades de FDR (1995) bajo dependencia. Yekutieli y Benjamini (Journal of Statistical Planning and Inference, 1999) establecen un procedimiento FDR diferente. ¿Hay alguna posibilidad de que sea ese el que buscas?
0 votos
@julieth: Esa fue mi sensación del artículo de 2001 al leer sólo el resumen, pero las fórmulas del artículo (por ejemplo, 27 - 30) parecen implicar una cantidad denominada q. Por otra parte, también lo hace el artículo de 1999 que citas. Sin embargo, tengo la sensación de que el artículo de 1999 implementa un enfoque de remuestreo que claramente (mirando el código) no es lo que hace mi programa de estadísticas (R; p.adjust)... pero puedo estar equivocado.
1 votos
Al final del artículo de 2001 se cita el artículo de 1999 y se dice: "Por último, recordemos el procedimiento basado en el remuestreo de Yekutieli y Benjamini (1999), que intenta hacer frente al problema anterior y al mismo tiempo utilizar la información sobre la estructura de dependencia derivada de la muestra. El procedimiento basado en el remuestreo es más potente, a expensas de una mayor complejidad y de un control FDR sólo aproximado." ... así que creo que el documento de 2001 proporcionó una solución computacional de forma cerrada y eso es lo que mi programa de estadísticas está implementando.
1 votos
Ok, entonces usted está usando p.adjust. El papel 99 es totalmente diferente, como has señalado. Siempre vi la opción BY en p.adjust y no presté atención. Ese documento de 2001 se suele citar en relación con la prueba de la FDR y la "dependencia de la regresión positiva". Nunca vi que citara un estimador diferente, pero quizá esté ahí. Parece que tengo que releerlo.