Tengo a largo plazo de recogida de datos, y me gustaría probar, si el número de animales recogidos es influenciado por los efectos de la meteorología. Mi modelo tiene el siguiente aspecto:
glmer(SumOfCatch ~ I(pc.act.1^2) +I(pc.act.2^2) + I(pc.may.1^2) + I(pc.may.2^2) +
SampSize + as.factor(samp.prog) + (1|year/month),
control=glmerControl(optimizer="bobyqa", optCtrl=list(maxfun=1e9,npt=5)),
family="poisson", data=a2)
Explicación de las variables utilizadas:
- SumOfCatch: número de animales recogidos
- pc.ley.1, pc.ley.2: ejes de un componente principal que representa las condiciones climáticas durante el muestreo
- pc.mayo.1, pc.mayo.2: ejes de una PC que representa las condiciones climáticas en Mayo
- SampSize: número de trampas pitfall, o la recolección de los transectos de longitudes estándar
- samp.prog: método de muestreo
- año: año de muestreo (de 1993 a 2002)
- mes: mes de muestreo (de Agosto a Noviembre)
El modelo ajustado de los residuos muestran una considerable falta de homogeneidad (heterocedasticidad?) cuando se trazan contra los valores ajustados (ver Fig.1):
Mi pregunta principal es: ¿esto es un problema para hacer la fiabilidad de mi modelo cuestionable? Si es así, ¿qué puedo hacer para resolverlo?
Hasta ahora he probado los siguientes:
- control de sobredispersión mediante la definición de observación a nivel de efectos aleatorios, es decir, el uso de un IDENTIFICADOR único para cada observación, y la aplicación de esta variable de ID como efecto aleatorio; a pesar de que mis datos muestran una considerable sobredispersión, esto no ayuda como los residuos se hizo aún más feo (ver Fig. 2)
- I modelos ajustados sin efectos aleatorios, con cuasi-Poisson glm glm y.nb; también produjo similares residual vs parcelas equipadas para el modelo original
Por lo que yo sé, puede que haya formas para la estimación de heterocedasticidad consistente en el estándar de los errores, pero no he logrado encontrar ningún ejemplo de método de Poisson (o de cualquier otro tipo) GLMMs en R.
En respuesta a @FlorianHartig: el número de observaciones en mi conjunto de datos es N=554, creo que esta es una feria de obs. número de modelo, pero, por supuesto, cuantos más, mejor. He puesto dos cifras, la primera de las cuales es el DHARMa residual a escala de parcela (sugerido por Florian) del modelo principal.
La segunda figura es la de un segundo modelo, en el que la única diferencia es que contiene la observación a nivel de efectos aleatorios (el primero no).
ACTUALIZACIÓN
La figura de la relación entre un clima variable (como predictor, es decir, el eje x) y el muestreo de éxito (respuesta):
ACTUALIZACIÓN II.
Cifras que muestran los valores predictores vs residuales: