No sé nada acerca de los estudios de expresión génica, pero tengo cierto interés en varios de inferencia, así que voy a correr el riesgo de una respuesta en esta parte de la pregunta de todos modos.
Personalmente, no me gustaría abordar el problema de esa manera. Me gustaría ajustar el nivel de error en los estudios originales, calcular la nueva superposición y salir de la prueba al final solo. Si el número de genes expresados diferencialmente (y cualquier otro resultado que se esté utilizando) se basa ya en ajustar pruebas, yo diría que usted no necesita hacer nada.
Si no se puede volver a los datos originales y realmente quiero para ajustar el p-valor, de hecho, puede multiplicar por el número de pruebas, pero no veo por qué no debería tener nada que ver con el tamaño de la lista2. Tendría más sentido para ajustar el número total de pruebas realizadas en ambos estudios (es decir, dos veces la población). Esto va a ser brutal, aunque.
Para ajustar los p-valores en R, puede utilizar p.adjust(p)
, donde p
es un vector de p-valores.
p.adjust(p, method="bonferroni") # Bonferroni method, simple multiplication
p.adjust(p, method="holm") # Holm-Bonferroni method, more powerful than Bonferroni
p.adjust(p, method="BH") # Benjamini-Hochberg
Como se indica en el archivo de ayuda, no hay ninguna razón para no usar Encinas de Bonferroni más de Bonferroni como también proporciona un fuerte control de la tasa de error familywise en cualquier caso, pero es más potente. Benjamini-Hochberg controles de la tasa de falso descubrimiento, que es menos estricto criterio.
Editado después del comentario de abajo:
Cuanto más pienso sobre el problema, más creo que una corrección para comparaciones múltiples es innecesario e inapropiado en esta situación. Aquí es donde la noción de una "familia" de la hipótesis de patadas en el. Su última prueba no es del todo comparable a la de todas las pruebas anteriores, no hay riesgo de "aprovechar la oportunidad" o el cherry picking resultados significativos, no es sólo una prueba de interés y que es legítimo el uso de la ordinaria nivel de error para este.
Incluso si usted corrige enérgicamente por las muchas pruebas que se realizan antes, aún no se dirige directamente a la principal preocupación, que es el hecho de que algunos de los genes en ambas listas, podría haber sido falsamente detectado como diferencialmente expresados. Los anteriores resultados de la prueba todavía "stand" y si usted quiere interpretar estos resultados, mientras que el control de la familia de sabios de la tasa de error, usted todavía necesita para corregir todos ellos demasiado.
Pero si la hipótesis nula que en realidad es verdadera para todos los genes, cualquier resultado significativo sería un falso positivo y no es de esperar que el mismo gen se marcará de nuevo en el ejemplo siguiente. La superposición entre ambas listas sería, por tanto, sólo suceden por casualidad y esto es exactamente lo que la prueba basada en la distribución hipergeométrica es la prueba. Así que incluso si las listas de genes que se completa con la basura, el resultado de la última prueba es segura. Intuitivamente, parece que cualquier cosa en medio (una mezcla de la verdadera y la falsa hipótesis) debe estar bien también.
Tal vez alguien con más experiencia en este campo puede opinar, pero creo que un ajuste sería necesario si se quiere comparar el número total de genes detectados o averiguar cuáles son los expresados diferencialmente, es decir, si se desea interpretar las miles de pruebas que se realizan en cada estudio.