20 votos

Cómo interpretar un gráfico QQ de valores p

Estoy haciendo estudios de asociación de SNP de GWAS sobre enfermedades utilizando un software llamado plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ).

Con los resultados de asociación obtengo los valores p para todos los SNPs analizados. Ahora, utilizo un gráfico QQ de esos valores p para mostrar si un valor p muy bajo difiere de la distribución esperada de los valores p (una distribución uniforme). Si un valor p se desvía de la distribución esperada uno "puede" llamar a ese valor p de la estadística significativo.

Como se puede ver en el gráfico QQ, en la cola superior, los últimos 4 puntos son algo difíciles de interpretar. Dos de los últimos puntos en gris sugieren que esos valores p están en la distribución esperada de valores p, mientras que los otros dos no lo están.

Ahora, cómo interpretar esto, los dos últimos puntos tienen baja p-valores pero no son "significativos" según el QQ-plot, mientras que los otros dos puntos con más alto ¿Los valores p son "significativos"? ¿Cómo puede ser esto cierto?

enter image description here

6 votos

Un problema con el uso de los gráficos QQ para interpretar los GWAS es que los valores p no son independientes entre sí y, de hecho, es muy probable que los valores p más extremos estén correlacionados. Supongo que los cuatro resultados más importantes están probablemente en el mismo cromosoma y están lo suficientemente cerca el uno del otro como para que el LD esté causando una correlación entre ellos. Si se ejecuta la prueba que dio el segundo valor p más bajo condicionado al SNP con el valor p más bajo, supongo que su valor p caería en el rango no excepcional. Lo mismo ocurriría probablemente con muchos de los otros aciertos aparentes.

4 votos

Ya lo he hecho, he podado el conjunto de datos de SNP para obtener sólo SNPs independientes (utilizando un r-cuadrado de 0,8 como límite). Este gráfico QQ muestra los resultados de los SNPs independientes, o SNPs en LD < 0.8.

1 votos

El SNP más bajo corresponde al cromosoma 6, el segundo al cromosoma 2, el tercero al cromosoma 5, el cuarto al cromosoma 9, así que no estoy tan seguro de que el LD sea un problema aquí.

8voto

Dells Mark Puntos 11

Esta es una pregunta más antigua, pero la encontré útil al tratar de interpretar QQPlots por primera vez. Pensé en añadir a estas respuestas en caso de que más personas tropiecen con esto en el futuro.

Lo que me resultó un poco difícil de entender es ¿qué son exactamente esos puntos? Me pareció que ir al código facilitaba la comprensión.

Este es un código R que he adaptado GWASTools::qqPlot que implementa un QQPlot en 3 líneas:

simpleQQPlot = function (observedPValues) {
  plot(-log10(1:length(observedPValues)/length(observedPValues)), 
       -log10(sort(observedPValues)))
  abline(0, 1, col = "red")
}

He aquí un ejemplo. Usted tiene 5 valores p. simpleQQPlot generará 5 valores p correspondientes a partir de una distribución uniforme entre 0 y 1. Estos serán: .2 .4 .6 .8 y 1. Así que simpleQQPlot espera que su valor p más bajo sea alrededor de .2, y el más alto sea alrededor de 1. simpleQQPlot ordenará sus valores p y emparejará cada uno con el valor generado correspondiente. Así que .2 se emparejará con su valor p más bajo, 1 con el más alto, y así sucesivamente. Entonces, estos valores emparejados se trazan (después de tomar los logaritmos negativos), siendo X el valor p generado, e Y el valor observado emparejado. Si sus valores observados también fueron extraídos de una distribución uniforme, entonces los puntos deberían estar aproximadamente en la línea recta. Debido a la clasificación, los puntos siempre aumentarán monótonamente. Así que cada punto subsiguiente tendrá una X mayor, y una Y mayor o igual. El salto entre los valores de Y depende de tus datos, pero con la transformación logarítmica, verás un salto mayor en X a medida que te mueves más a la derecha.

Así, en el ejemplo original anterior, el valor p ordenado en 9.997º lugar era de alrededor de 5,2, pero se esperaba que fuera de alrededor de 4,1 si se siguiera una distribución uniforme. (Nota: En realidad no estoy seguro de cuántos valores p se trazaron arriba; sólo supuse que eran 10.000).

6voto

JohnRos Puntos 3211

Una buena referencia sobre el análisis de los gráficos de valores p es [1].

El resultado que se obtiene puede deberse a que la señal/los efectos sólo existen en un subconjunto de pruebas. Éstas se sitúan por encima de las bandas de aceptación. Rechazar sólo el valor p fuera de las bandas puede, en efecto, estar justificado, pero quizá lo más importante sea que decida cuál es el criterio de error que quiere controlar al seleccionar su procedimiento de selección (FWER, FDR). Puede consultar [2] para esa elección, y las referencias en ella para elegir el procedimiento de pruebas múltiples adecuado.

[1] Schweder, T., y E. Spjotvoll. "Parcelas de valores P para evaluar muchas pruebas simultáneamente". Biometrika 69, no. 3 (diciembre de 1982): 493-502. doi:10.2307/2335984.

[2] Rosenblatt, Jonathan. "A Practitioner's Guide to Multiple Testing Error Rates". ArXiv e-print. Universidad de Tel Aviv, 17 de abril de 2013. http://arxiv.org/abs/1304.4920 .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X