24 votos

Ajustar un GLMM binomial (glmer) a una variable de respuesta que es una proporción o fracción

Estoy esperando que alguien pueda ayudar con lo que creo que es una pregunta relativamente sencilla, y creo que sé la respuesta pero sin confirmación se ha convertido en algo en lo que simplemente no puedo estar seguro.

Tengo algunos datos de recuento como variable de respuesta y quiero medir cómo cambia esa variable con la presencia proporcional de algo.

Más en detalle, la variable de respuesta son recuentos de la presencia de una especie de insecto en varios sitios, por ejemplo, un sitio se muestrea 10 veces y esta especie puede ocurrir 4 veces.

Quiero ver si esto se correlaciona con la presencia proporcional de un grupo de especies de plantas en la comunidad general de plantas en estos sitios.

Esto significa que mis datos se ven de la siguiente manera (esto es solo un ejemplo)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

Los datos también incluyen un efecto aleatorio por ubicación.

Pensé en dos métodos, uno sería un modelo lineal (lmer) con los insectos convertidos a una proporción por ejemplo

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

El segundo sería un GLMM binomial (glmer) por ejemplo

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

Creo que el glmer binomial es el método correcto, sin embargo producen resultados bastante diferentes. No puedo encontrar una respuesta definitiva en la red sin seguir sintiéndome un poco inseguro, y quiero asegurarme de que no estoy cometiendo un error.

Cualquier ayuda o conocimiento sobre métodos alternativos en esto sería muy apreciado.

36voto

Ben Bolker Puntos 8729

El GLMM binomial es probablemente la respuesta correcta.

  • Especialmente con un número pequeño a moderado de muestras (como 9 y 10 en tu ejemplo), la distribución de la variable de respuesta probablemente será heterocedástica (la varianza no será constante y, en particular, dependerá de la media de formas sistemáticas) y estará lejos de la normalidad, de una manera que será difícil de transformar, especialmente si las proporciones están cerca de 0 o 1 para algunos valores de la variable predictora. Eso hace que el GLMM sea una buena idea.
  • Debes tener cuidado de verificar/considerar la sobredispersión. Si tienes una sola observación (es decir, una sola muestra/binomio por ubicación) por ubicación, entonces tu efecto aleatorio (1|Sitio) manejará esto automáticamente (aunque consulta a Harrison 2015 para una nota de precaución)
  • si la suposición anterior es correcta (solo tienes una muestra/binomio por ubicación), entonces también puedes ajustar esto como un modelo binomial regular (glm(...,family=binomial) - en ese caso, también puedes usar un modelo cuasibinomial (familia=quasibinomial) como una forma más simple y alternativa de considerar la sobredispersión
  • si quieres, también puedes ajustar tu GLMM con la proporción como respuesta, si configuras el argumento weights igual al número de muestras:

     glmer(cantidad de insectos/NúmeroDeMuestrasDeInsectos~PresenciaDeGrupoDePlantasProporcional+
           (1|Ubicación),
           weights=NúmeroDeMuestrasDeInsectos,
           datos=Datos,familia="binomial")

    (esto debería dar resultados idénticos al ajuste de glmer() que tienes en tu pregunta).

Harrison, Xavier A. “Una comparación de modelos de efectos aleatorios a nivel de observación y beta-binomiales para modelar la sobredispersión en datos binomiales en ecología y evolución.” PeerJ 3 (21 de julio de 2015): e1114. doi:10.7717/peerj.1114.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X