Estoy trabajando con datos de recuento de OTU (esencialmente recuentos de lecturas de secuencias agrupadas), y tratando de determinar la abundancia diferencial de recuentos entre dos grupos. Por el momento, estamos utilizando un método definido en el artículo de Romero, et al titulado "La composición y estabilidad de la microbiota vaginal de las mujeres embarazadas normales es diferente de la de las mujeres no embarazadas", mediante el cual ajustamos el modelo utilizando Poisson, NB y ZINB (aplicando efectos mixtos cuando tenemos medidas repetidas), encontramos el modelo con el mejor ajuste (usando AIC/BIC), y usamos esos coeficientes y valores p para generar valores q y determinar OTUs significativamente abundantes entre los dos grupos que estamos comparando.
Mis preguntas son las siguientes: (1) Si mi modelo se parece a OTU ~ treatment
ou OTU ~ treatment + (1|studyid)
¿es mejor el AIC o el BIC? Los mismos individuos estarán en todas las comparaciones, así que no piense en que me preocupan las diferencias en el tamaño de la muestra. Romero utiliza el AIC, pero también parece haber algún argumento a favor del BIC, y no estoy seguro de en qué casos uno es más correcto que el otro.
(2) En la misma línea, supongo que puedo utilizar el AIC/BIC para las versiones de efectos mixtos de Poisson, NB y ZINB. Estoy utilizando las versiones implementadas en R utilizando el lme4
y glmmADMB
paquetes.
(3) Algunos de mis modelos no convergen y, hasta ahora, he tomado los modelos que no convergen y los considero no relevantes desde el punto de vista biológico. Por lo tanto, descarto los coeficientes/valores resultantes y sólo comparo los modelos que convergen. ¿Tiene esto sentido? ¿O debo considerar que los modelos que no convergen pueden seguir siendo útiles?
Sé que estas preguntas no se pueden validar en un banco, pero no estoy seguro de cómo crear un guión que sea lo más fiel posible a las bacterias que encontramos en nuestras muestras.