23 votos

La corrección de los valores de p para pruebas múltiples, donde las pruebas son correlacionados (genética)

Tengo los valores p de una gran cantidad de pruebas y quisiera saber si realmente existe algo significativo después de la corrección de pruebas múltiples. La complicación: mis pruebas no son independientes. El método que estoy pensando (una variante de la de Fisher Producto Método, Zaykin et al., Genet Epidemiol, 2002) las necesidades de la correlación entre los valores de "p".

Para la estimación de esta correlación, actualmente estoy pensando acerca de arranque de los casos, la ejecución de los análisis y la correlación de la resultante de los vectores de valores de "p". ¿Alguien tiene una idea mejor? O incluso una idea mejor para mi problema original (para la corrección de múltiples pruebas en pruebas de correlación)?

Antecedentes: soy logística la regresión de si es o no mi sujetos están sufriendo de una enfermedad particular en la interacción entre su genotipo (AA, Aa o aa) y la covariable. Sin embargo, el genotipo es en realidad mucho (30-250) de Polimorfismos de Nucleótido Único (SNPs), que ciertamente no son independientes, pero en Desequilibrio de Ligamiento.

13voto

DavLink Puntos 101

Realmente este es un tema candente en todo el Genoma estudios de análisis (GWAS)! No estoy seguro de que el método que usted está pensando es la más apropiada en este contexto. La agrupación de los valores de p fue descrito por algunos autores, pero en un contexto diferente (estudios de replicación o de meta-análisis, véase, por ejemplo, (1) para una revisión reciente). La combinación de SNP p-valores por Fisher método se utiliza generalmente cuando se quiere obtener un único valor de p para un gen dado; esto permite trabajar a nivel del gen, y reducir la cantidad de la dimensionalidad de las pruebas posteriores, pero como usted dijo no a la independencia entre los marcadores (derivados de la colocación espacial o vinculación disiquilibrium, LD) introducir un sesgo. Más potente alternativas se basan en el remuestreo de los procedimientos, por ejemplo, el uso de maxT estadísticas para combinar el p-valor y el trabajo a nivel del gen o cuando uno está interesado en la vía de los enfoques basados en, ver, por ejemplo, (2) (§2.4 p. 93 proporciona detalles sobre su enfoque).

Mi principal preocupación con bootstraping (con reemplazo) sería que la introducción de una forma de relación, o en otras palabras crear virtual gemelos, por lo tanto la alteración de equilibrio de Hardy-Weinberg (pero también de la mínima frecuencia de los alelos y la tasa de llamada). Este no sería el caso con una permutación enfoque donde permutar etiquetas individuales y mantener los datos de genotipado como es. Generalmente, el plink software puede dar raw y permutan los valores de p, aunque se utiliza (por defecto), una adaptación de la prueba de la estrategia con una ventana deslizante que permite detener la ejecución de todas las permutaciones (digamos 1000 por SNP) si parece que el SNP bajo consideración, no es "interesante"; también tiene la opción para calcular maxT, consulte la ayuda en línea.

Pero dado el bajo número de SNPs que usted está considerando, sugiero que depender de la FDR-basado o maxT pruebas como se implementa en el multtest paquete de R (ver mt.maxT), pero la guía definitiva para el remuestreo de las estrategias para la aplicación genómica es de Varios Procedimientos de Prueba con las Aplicaciones de la Genómica, de Dudoit & van der Laan (Springer, 2008). Ver también Andrea Foulkes, el libro de la genética con R, el cual es revisado en el JSS. Ella tiene un gran material en varios procedimientos de prueba.

Más Notas

Muchos autores han señalado el hecho de que un simple sistema de múltiples pruebas de corrección de métodos tales como el de Bonferroni o Sidak son demasiado estrictas para ajustar los resultados por el individuo SNPs. Por otra parte, ninguno de estos métodos toman en cuenta la correlación que existe entre los SNPs debido a LD que las etiquetas de la variación genética en las regiones de genes. Otra alternativa que se tiene de la abeja de la propuesta, como un derivado de Encinas, el método de comparación múltiple (3), los modelos Ocultos de Markov (4), condicional o positivo FDR (5) o derivado de la misma (6), para nombrar unos pocos. Los llamados estadísticas de la diferencia o de la ventana deslizante ha sido probada con éxito en algunos casos, pero vas a encontrar una buena revisión en (7) y (8).

También he oído hablar de los métodos que hacen uso efectivo de la estructura de haplotipos o LD, por ejemplo, (9), pero yo nunca los han utilizado. Parece, sin embargo, más relacionadas con la estimación de la correlación entre los marcadores, no p-valor como usted quiere. Pero, en realidad, sería mejor pensar en términos de la estructura de dependencia entre las sucesivas pruebas estadísticas de correlación entre p-valores.

Referencias

  1. Cantor, RM, Lange, K y Sinsheimer, JS. La priorización de los Resultados de GWAS: Una Revisión de Métodos Estadísticos y Recomendaciones para Su Aplicación. Am J Hum Genet. 2010 86(1): 6-22.
  2. Corley, RP, Zeiger, JS, Crowley, T et al. Asociación de genes candidatos antisocial de la dependencia de drogas en los adolescentes. De drogas y la Dependencia del Alcohol 2008 96: 90-98.
  3. Dalmasso, C, Génin, E y Trégouet DA. De un promedio Ponderado de-Holm Procedimiento de Contabilidad para las Frecuencias de los alelos en todo el Genoma Estudios de Asociación. La genética de 2008 180(1): 697-702.
  4. Wei, Z, Sol, W, Wang, K, y Hakonarson, H. Múltiples Pruebas en Estudios de Asociación de Genoma a través de Modelos Ocultos de Markov. Bioinformática de 2009, 25(21): 2802-2808.
  5. Broberg, P. Un análisis comparativo de las estimaciones de la proporción invariable de los genes y la tasa de falso descubrimiento. BMC Bioinformatics 2005 6: 199.
  6. Necesidad, CA, Ge, D, Weale, ME, et al. Un Genoma de Investigación de SNPs y CNVs en la Esquizofrenia. PLoS Genet. De 2009, 5(2): e1000373.
  7. Han, B, Kang, HM, y Eskin, E. Rápida y Precisa de Múltiples Pruebas de Corrección y el Poder de la Estimación para Millones de Correlación de los Marcadores. PLoS Genetics 2009
  8. Liang, y y Kelemen, A. Estadística de los avances y desafíos para el análisis de correlación de alta dimensional de datos de snp en el estudio genómico de las enfermedades complejas. Las Estadísticas De Las Encuestas De 2008 2 :43-60. - la mejor revisión reciente jamás
  9. Nyholt, el DR. UNA Simple Corrección de Múltiples Pruebas para los Polimorfismos de un Solo Nucleótido en Desequilibrio de Ligamiento con Cada uno de los Otros. Am J Hum Genet. 2004 74(4): 765-769.
  10. Nicodemo, KK, Liu, W, Chase, GA, Tsai, Y-Y, y Cayendo, MD. Comparación de error de tipo I para la prueba múltiple de las correcciones en gran polimorfismo de un solo nucleótido estudios utilizando componentes principales comparación de haplotipos el bloqueo de los algoritmos. BMC Genetics 2005; 6(Suppl 1): S78.
  11. Peng, Q, Zhao, J, y Xue, F. PCA basado en bootstrap intervalo de confianza de las pruebas para el gen de la enfermedad de la asociación que agrupa a varios SNPs. BMC Genetics 2010, 11:6
  12. Li, M, Romero, R, Fu, WJ, y Cui, Y. (2010). La asignación de Haplotipo haplotipo Interacciones con la Adaptación de LAZO. BMC Genetics 2010, 11:79-aunque no directamente relacionadas con la cuestión, que cubre el haplotipo basado en el análisis/efecto epistático

12voto

Eric L Puntos 86

Estoy buscando una solución de trabajo para exactamente el mismo problema. El mejor que he encontrado es el Nulo sin restricciones Bootstrap introducido por Foulkes Andrea en su libro Estadística Aplicada Genética con R(2009). Contrariamente a todas montón de otros artículos y libros que él considera específicamente las regresiones. Además de otros métodos que asesora a la Nula sin restricciones de Bootstrap, que es adecuado donde no se puede fácilmente calcular los residuos (como en mi caso, donde I modelo de muchos independiente regresiones (básicamente correlaciones simples), cada uno con la misma variable de respuesta y diferentes snip). He encontrado que este método es también llamado el maxT método.

> attach(fms)
> Actn3Bin <- > data.frame(actn3_r577x!="TT",actn3_rs540874!="AA",actn3_rs1815739!="TT",actn3_1671064!="GG")
> Mod <- summary(lm(NDRM.CH~.,data=Actn3Bin))
> CoefObs <- as.vector(Mod$coefficients[-1,1]) 
> B <-1000
> TestStatBoot <- matrix(nrow=B,ncol=NSnps)
> for (i in 1:B){
+    SampID <- sample(1:Nobs,size=Nobs, replace=T)
+    Ynew <- NDRM.CH[!MissDat][SampID]
+    Xnew <- Actn3BinC[SampID,]
+    CoefBoot <- summary(lm(Ynew~.,data=Xnew))$coefficients[-1,1]
+    SEBoot <- summary(lm(Ynew~.,data=Xnew))$coefficients[-1,2]
+    if (length(CoefBoot)==length(CoefObs)){
+       TestStatBoot[i,] <- (CoefBoot-CoefObs)/SEBoot
+    }
+ }

Una vez que tenemos todos los TestStatBoot de la matriz (en filas hemos replicaciones bootstrap, y en las columnas tenemos bootstrap $\hat{\vec{T}^*}$ estadística) se encuentra que para los cuales $T_{\text{crit.}}$ observamos exactamente $\alpha=0.05$ por ciento de los más importantes de $\hat{\vec{T}^*}$ estadística (más significativas significa que con mayor valor absoluto de $T_{\text{crit.}}$).

Nos informan de $i$-ésimo componente del modelo significativo, si su $\hat{\vec{T}_i} > T_{\text{crit.}}$

El último paso que se puede lograr con este código

p.value<-0.05 # The target alpha threshold
digits<-1000000
library(gtools) # for binsearch

pValueFun<-function(cj)
{
   mean(apply(abs(TestStatBoot)>cj/digits,1,sum)>=1,na.rm=T)
}
ans<-binsearch(pValueFun,c(0.5*digits,100*digits),target=p.value)
p.level<-(1-pnorm(q=ans$where[[1]]/digits))*2 #two-sided.

2voto

highBandWidth Puntos 977

Creo que Multivariante Normal de los Modelos se utilizan para modelar la correlación p-valores y obtener el tipo correcto de múltiples correcciones de pruebas. Rápida y Precisa de Múltiples Pruebas de Corrección y el Poder de la Estimación para Millones de Correlación de los Marcadores. PLoS Genet 2009 habla sobre ellos y también da otras referencias. Suena similar a lo que le estaban hablando, pero creo que aparte de conseguir una mayor precisión global p-valor de corrección, LD estructura de conocimiento también debe utilizar para eliminar falsos positivos derivados de marcadores relacionada con la causal de marcadores.

2voto

Scott Cowan Puntos 1564

El uso de un método como el de bonferroni está bien, el problema es que si tienes muchas pruebas de que usted no va a encontrar muchos de los "descubrimientos".

Usted puede ir con el FDR enfoque de las pruebas depende de (ver aquí para más detalles) el problema es que no estoy seguro de si se puede decir por adelantado si su correlaciones son todos positivos.

En R se puede hacer simple FDR con p.ajustar. Para obtener más complejo de cosas que me gustaría echar un vistazo a multcomp, pero yo no ir a través de él para ver las soluciones en los casos de las dependencias.

La buena suerte.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X