4 votos

GLM: Modelización de datos proporcionales - tiene en cuenta la variación del tamaño total de la muestra

Cuando estoy muestreando la proporción de un subgrupo de animales con respecto al número total de animales de una muestra, puedo sentirme bastante seguro (después de tener en cuenta los factores ambientales) de que tengo una representación realista de la comunidad siempre que mi muestra sea grande (una sección transversal mayor de la comunidad). Sin embargo, si por alguna razón sólo consigo una muestra pequeña, imagino que la proporción de mi subgrupo puede ser bastante aleatoria, y habría más variación.

Por ejemplo, podría estar interesado en la abundancia proporcional de ciertos gremios de alimentación dentro de una comunidad de aves. Para comprobarlo, podría salir y capturar aves repetidamente en un sitio determinado. El primer día, podría capturar 30 aves en total en un lugar, y 5 de ellas comen principalmente insectos, por lo que mi abundancia proporcional de aves insectívoras es de 5/30=0,167.

El día 2, repito el experimento, pero resulta que sólo capturo 5 pájaros, de los cuales 4 resultan ser insectívoros, lo que resulta en una abundancia proporcional de 4/5=0,8. Otras medidas repetidas podrían mostrar que las proporciones son generalmente inferiores a 0,2, pero este valor atípico de 0,8 sesgará los datos hacia proporciones más altas.


Un modelo en R que analice estos datos podría especificarse de la siguiente manera:

model <- lme4::glmer(insectivor_captures/total_captures ~ (1|day) + site,      
                     family = binomial (link = logit), 
                     weights = total_captures, 
                     data=df)

¿Cómo se explican los días en los que el total de muestras es bajo y la incertidumbre es alta? ¿Tendría sentido excluir simplemente esos casos?

8voto

Ben Bolker Puntos 8729

tl;dr En general, creo que el hecho de que estés utilizando un modelo binomial debería encargarse de esto automáticamente.

El modelo binomial incorpora parte de la disminución esperada de la fiabilidad de las muestras pequeñas que le preocupa. En concreto, el coeficiente de variación (CV) de una muestra binomial de tamaño $n$ es $np/\sqrt{np(1-p)} = \sqrt{p/(n(1-p))}$ Por lo tanto, esperamos que las muestras sean más fiables (tengan un CV más bajo) cuando tengan una gran $n$ .

En general, esto debería capturar los efectos básicos del pequeño tamaño de la muestra; es concebible que las muestras pequeñas sean aún más poco fiable de lo que cabría esperar basándose en esta variación binomial (por ejemplo, tal vez sólo se recogió una muestra de pequeño tamaño cuando operaba alguna otra variación ambiental), que podría modelar si realmente quisiera, pero en general no me preocuparía por ello.

Sobredispersión se refiere a que la variabilidad es superior a la esperada según el modelo estadístico (en este caso binomial) de forma generalizada, no necesariamente sólo cuando el tamaño de la muestra es pequeño. Por ejemplo, el beta-binomio modelo, por ejemplo (Mor, la varianza está inflada por un factor $(\phi+n)/(\phi+1)$ Así pues, para $\phi \ll 1$ (alta sobredispersión), el CV es aproximadamente constante en lugar de ser proporcional a $1/\sqrt{n}$ -- esto ocurre porque la varianza "extra-binomial" del proceso domina la varianza del muestreo binomial.

Otra forma de tener en cuenta la sobredispersión es añadir un efecto aleatorio a nivel de observación es decir, la variación gaussiana (en la escala de logaritmos) de las probabilidades entre las observaciones: por ejemplo, véanse los artículos de Harrison que figuran a continuación.


Harrison, Xavier A. "A Comparison of Observation-Level Random Effect and Beta-Binomial Models for Modelling Overdispersion in Binomial Data in Ecology & Evolution". PeerJ 3 (21 de julio de 2015): e1114. https://doi.org/10.7717/peerj.1114 .

---. "Using Observation-Level Random Effects to Model Overdispersion in Count Data in Ecology and Evolution". PeerJ 2 (9 de octubre de 2014): e616. https://doi.org/10.7717/peerj.616 .

1voto

Manuel Puntos 6

¿Qué pasa con los modelos de dispersión? Lo que has descrito anteriormente también puede considerarse como un efecto de lote. Así que hacer un modelo poisson con un parámetro de sobredispersión podría ser una medida de la incertidumbre dentro de cada día.

Otra forma sería pensar en Mínimos Cuadrados Generalizados donde se pondera la matriz de covarianza de cada día por el número de capturas. Así que sería como decir que si a lo largo de 10 días, tengo 20 muestras, y un día tengo 4, diría que $Var(X) = 20/4 * \sigma^2$ donde como el día que tengo 20 muestras, diría que la varianza es $Var(X) = 20/20 * \sigma^2$ . Ahora bien, habría que pensar un poco más en qué tipo de ponderación se quiere hacer, pero creo que esta idea general podría funcionar.

1 votos

Gracias. No creo que los modelos de recuento excesivamente dispersos, como los modelos binomiales negativos, sean apropiados para los resultados de proporción - corrígeme si me equivoco. Echaré un vistazo a los efectos de lote y a los mínimos cuadrados generalizados.

0 votos

Puede dar una idea de cuánta varianza extra se obtiene de las variaciones del día a día en comparación con lo que se espera, pero sí, me gusta más el enfoque de GLS.

1 votos

A menos que me esté perdiendo algo, no me gusta mucho esta respuesta...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X