Cuando estoy muestreando la proporción de un subgrupo de animales con respecto al número total de animales de una muestra, puedo sentirme bastante seguro (después de tener en cuenta los factores ambientales) de que tengo una representación realista de la comunidad siempre que mi muestra sea grande (una sección transversal mayor de la comunidad). Sin embargo, si por alguna razón sólo consigo una muestra pequeña, imagino que la proporción de mi subgrupo puede ser bastante aleatoria, y habría más variación.
Por ejemplo, podría estar interesado en la abundancia proporcional de ciertos gremios de alimentación dentro de una comunidad de aves. Para comprobarlo, podría salir y capturar aves repetidamente en un sitio determinado. El primer día, podría capturar 30 aves en total en un lugar, y 5 de ellas comen principalmente insectos, por lo que mi abundancia proporcional de aves insectívoras es de 5/30=0,167.
El día 2, repito el experimento, pero resulta que sólo capturo 5 pájaros, de los cuales 4 resultan ser insectívoros, lo que resulta en una abundancia proporcional de 4/5=0,8. Otras medidas repetidas podrían mostrar que las proporciones son generalmente inferiores a 0,2, pero este valor atípico de 0,8 sesgará los datos hacia proporciones más altas.
Un modelo en R que analice estos datos podría especificarse de la siguiente manera:
model <- lme4::glmer(insectivor_captures/total_captures ~ (1|day) + site,
family = binomial (link = logit),
weights = total_captures,
data=df)
¿Cómo se explican los días en los que el total de muestras es bajo y la incertidumbre es alta? ¿Tendría sentido excluir simplemente esos casos?