Este es un histograma que muestra mi variable de respuesta.
La respuesta es el número (¿o la proporción? ¿o el porcentaje?) de pulgones comidos de las tarjetas en los campos, para modelar la depredación por los enemigos naturales.
Predictores: los efectos fijos son tanto categóricos (es decir, el tipo de cultivo, la estación) como continuos (es decir, las variables del paisaje - cantidad de tierra en producción, tamaño medio del campo), y la variable "paisaje" es un efecto aleatorio.
He estado trabajando en esto hasta ahora con la variable de respuesta reflejada ('número de pulgones restantes' en lugar de 'número de pulgones comidos') para que sea sesgada a la derecha en su lugar que parecía más posible. Pero prefiero trabajar con ella como sesgada a la izquierda si es posible, los resultados serán más fáciles de discutir de esa manera.
Las transformaciones no ayudan a que la variable de respuesta esté menos sesgada.
El GLMM con errores de Poisson no funciona porque los modelos creados están demasiado sobredispersos. GLMM con errores binomiales negativos - el mismo problema. Cualquier forma de modelar estos datos que trata la variable de respuesta como continua, me da cosas problemáticas cuando estoy comprobando el modelo, como los residuos por gráficos ajustados que tienen patrones claros en ellos, y la sobredispersión. Empiezo a preguntarme si tengo que clasificar de alguna manera los datos en la respuesta? ¿O dividirlos en categorías?
La posible solución a la que he llegado son los modelos de obstáculos:
"Los modelos Hurdle dividen el modelo en dos partes: un proceso binario que genera recuentos positivos frente a recuentos nulos, y un proceso que sólo genera recuentos positivos. El proceso binario se modela utilizando una regresión logística generalizada, y el proceso de recuento positivo se modela utilizando un modelo de recuento truncado por cero" (parafraseado de Zeilis, Kleiber & Jackman 2008)
¿Hay alguna manera de hacer esto en R? ¿O sólo tendría que hacer los dos modelos por separado, y discutirlos por separado? ¿O hay una manera de obtener un valor AIC para un modelo de obstáculos?
¿Alguien tiene alguna otra idea sobre cómo modelar este conjunto de datos?
TIA para cualquier ayuda, tan apreciada. ¡Este conjunto de datos ha sido una espina en mi costado durante demasiado tiempo!
EDITADO PARA AÑADIR
Ahora creo que un modelo tobit (regresión censurada) es la forma en que necesito modelar este conjunto de datos. Funcionó bien para modelar mis efectos fijos solamente. Pero todavía no puedo averiguar cómo hacer un modelo de este tipo con efectos mixtos. Estos puntos de datos están agrupados por sitio (3 puntos por sitio), por lo que necesita ser un efecto aleatorio. ¿Hay alguna manera de hacer una regresión censurada con efectos mixtos?