Sé que esto es similar a esta pregunta pero no parece haber obtenido una respuesta satisfactoria.
Estoy utilizando plink para realizar un GWAS. Mis datos de fenotipo son binarios, por lo que está realizando una regresión logística para cada variante genética. Estoy comprobando los datos mirando los gráficos QQ de los valores p, con la expectativa de que en su mayoría se ajusten a una distribución uniforme con un pequeño exceso de valores significativos al final.
También tengo otros datos que quiero utilizar como covariables en la regresión logística. Entre ellos, el lote en el que se procesaron las muestras, los primeros componentes principales de un análisis PCA (para controlar la estratificación de la población) y datos de fenotipo como la edad y el sexo.
Cuando no uso covariables en la regresión, obtengo resultados que se ajustan bastante bien a la distribución uniforme (hay tres fenotipos que estoy probando por separado, por eso hay tres gráficos).
Sin embargo, una vez que incluyo covariables, los gráficos QQ se vuelven bastante extraños. Aquí están los gráficos QQ para las regresiones ejecutadas con el lote como una covariable.
Y obtengo resultados de forma similar (aunque no necesariamente tan extremos) para tous covariables que utilizo.
Todas estas covariables se incluyen habitualmente en estudios similares. Incluso si no ayudan, no entiendo por qué empeoran las cosas. Es especialmente confuso que todas ellas empeoren las gráficas, porque esto sugiere que hay algún tipo de problema sistemático que es mayor que las especificidades de cada covariable.
Editar: Pensé que tal vez múltiples covariables trabajando juntos resolvería el problema, pero ejecutarlo utilizando todas las covariables produce este gráfico QQ ligeramente diferente pero igualmente extraño. Casi parece que se cuantiza.