Estoy teniendo algunos problemas para interpretar la salida del glm
modelo que estoy utilizando para un análisis eQTL (un análisis de genotipo frente a la expresión de un gen en particular). Mi modelo es el siguiente:
fit <- glm(Expression ~ genotype + prep.no + sex, family = poisson, data = data)
La expresión génica se da como un valor de recuento (derivado de los datos de RNASeq que han sido corregidos por el tamaño de la biblioteca), y el genotipo es simplemente un valor de 0, 1 o 2 que denota el número de alelos menores que lleva un individuo en un locus SNP particular. Sé que tanto el número de preparación como el sexo de un individuo influyen en la expresión génica, por lo que deseo corregir por estos dos factores. Probando el modelo con un SNP que se ha confirmado previamente que influye en la expresión de mi gen, obtengo lo siguiente:
Call:
glm(formula = Expression ~ genotype + prep.no + sex, family = poisson(link = "log"),
data = ERAPdata)
Deviance Residuals:
Min 1Q Median 3Q Max
-24.9946 -5.8912 -0.3892 4.6403 25.2830
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 8.081717 0.004232 1909.463 < 2e-16 ***
genotype1 -0.025497 0.003396 -7.507 6.05e-14 ***
genotype2 -0.091365 0.007384 -12.374 < 2e-16 ***
prep.no2 -0.006075 0.005313 -1.143 0.252864
prep.no3 0.001074 0.005412 0.198 0.842676
prep.no4 -0.007511 0.005791 -1.297 0.194621
prep.no5 -0.006958 0.005539 -1.256 0.209031
prep.no6 0.023217 0.005812 3.994 6.49e-05 ***
prep.no7 0.026062 0.007411 3.517 0.000437 ***
sex1 0.015740 0.003433 4.584 4.56e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 9662.4 on 131 degrees of freedom
Residual deviance: 9384.5 on 122 degrees of freedom
AIC: 10711
Number of Fisher Scoring iterations: 4
Teniendo en cuenta el importante valor de genotype1
¿es correcto interpretarlo como: relativo a genotype0
, las personas con genotype1
tienen una disminución de la expresión de -0,025?
Si deseo repetir esto a través de muchos SNPs, ¿debería considerar sólo la importancia de genotype2
para comparar (ya que se trata de una comparación por pares entre los homocigotos opuestos en un SNP determinado, y la expresión de las hetas con genotype1
se espera que caiga en algún lugar entre los niveles de los homocigotos si de hecho hay un efecto del genotipo)? Además, en cuanto a la corrección del efecto del lote y del género, ¿cómo lo hace el modelo? Pensé que incluir los términos era todo lo que se requería. ¿Cómo encuentro la significación del genotipo una vez que el género y el prep.no
¿se controlan? Como también tienen un efecto significativo en la expresión (arriba), es evidente que son un problema.
Cualquier comentario o sugerencia será muy apreciado.