Estoy analizando un conjunto de datos en R
y me gustaría que me aconsejaran sobre cómo construir mi análisis para obtener la respuesta adecuada a mi pregunta.
Quiero saber si los animales permanecieron más tiempo en una zona, fuera de ella o si no hay diferencias significativas. También tengo datos sobre el sexo y el tamaño de cada animal, y quiero saber si estos tienen alguna influencia (es decir: los machos permanecen más tiempo en la zona que las hembras, etc.).
¿Los animales permanecen más tiempo dentro o fuera de la zona y está influenciado por el sexo y el tamaño? Una pregunta sencilla pero no estoy seguro de cómo construir mi análisis...
Mis datos son así:
head(mydata)
ID Sex Size Time.in Time.out Total.Time Prop.in Prop.out
1 33199 F 63 493 421 914 0.5394 0.4606
2 33205 M 68 0 784 784 0.0000 1.0000
3 33206 M 69 0 155 155 0.0000 1.0000
4 33207 F 62 0 230 230 0.0000 1.0000
5 33208 M 66 3969 2804 6773 0.5860 0.4140
6 33210 F 63 88 263 351 0.2515 0.7485
Tenga en cuenta aquí que he dos variables de respuesta ( Time.in
y Time.out
) para cada animal. También hay que tener en cuenta que el tiempo total que se registró para cada animal ( Total.Time
) es diferente (mínimo = 155, máximo = 6773 minutos). Prop.in
y Prop.out
es la proporción de tiempo que han pasado dentro y fuera, pero por ahora no lo voy a utilizar. Así que me parece que hay diferentes maneras de escribir mi ecuación.
La primera utilizando el cuasibinomio (debido a la sobredispersión):
m1 <- glm(cbind(Time.in,Time.out)~Sex*Size, data = mydata, family = quasibinomial)
summary(m1)
Call:
glm(formula = cbind(Time.in, Time.out) ~ Sex * Size, family = quasibinomial,
data = mydata)
Deviance Residuals:
Min 1Q Median 3Q Max
-33.506 -16.149 -10.275 6.586 18.655
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -11.6407 34.1662 -0.341 0.745
SexM 10.8232 34.6930 0.312 0.766
Size 0.1788 0.5498 0.325 0.756
SexM:Size -0.1661 0.5569 -0.298 0.776
(Dispersion parameter for quasibinomial family taken to be 401.4389)
Null deviance: 3109.9 on 9 degrees of freedom
Residual deviance: 2913.9 on 6 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Así que mirando el intercepto, la pendiente negativa indica que pasaron menos tiempo de espera de la zona, sin embargo esto no es significativo. Y luego vemos que el Sexo, el Tamaño y su interacción no son significativos.
También he probado esta fórmula pero no estoy seguro de que sea la correcta:
m2 <- glm(Time.in~Time.out+Sex*Size+offset(log(Total.Time)), data = mydata, family = quasipoisson)
summary(m2)
Call:
glm(formula = Time.in ~ Time.out + Sex * Size + offset(log(Total.Time)),
family = quasipoisson, data = mydata)
Deviance Residuals:
1 2 3 4 5 6 7 8
5.6004 -23.1852 -9.5818 -12.6324 -0.0967 -4.5854 1.6991 -16.0141
9 10
-5.7422 19.2723
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -8.3657927 21.8619928 -0.383 0.718
Time.out 0.0003216 0.0002717 1.183 0.290
SexM 3.2377839 22.3820096 0.145 0.891
Size 0.1166635 0.3509753 0.332 0.753
SexM:Size -0.0607021 0.3569920 -0.170 0.872
(Dispersion parameter for quasipoisson family taken to be 221.1145)
Null deviance: 1965.9 on 9 degrees of freedom
Residual deviance: 1505.1 on 5 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
Ahora, utilizando esta fórmula con quasipoisson y el desplazamiento para integrar el tiempo de registro diferente para cada animal, se puede ver que la estimación para Time.out
es positivo, por lo que gastaron más tiempo fuera de la zona, ¡lo contrario del resultado anterior! De nuevo, esto no es significativo, pero en otros conjuntos de datos que tengo de otras regiones se vuelve significativo. Además, el sexo y el tamaño siguen sin ser significativos.
También podría rehacer mi conjunto de datos y utilizar modelos mixtos. Utilizando este formato de datos donde añado la variable Loc
( In
ou Out
) y en el que cada identificación de animal aparece dos veces:
head(mydata2)
ID Sex Size Loc Time Total.Time Time.prop
1 33199 F 63 In 493 914 0.5394
2 33199 F 63 Out 421 914 0.4606
3 33205 M 68 In 0 784 0.0000
4 33205 M 68 Out 784 784 1.0000
5 33206 M 69 In 0 155 0.0000
6 33206 M 69 Out 155 155 1.0000
Podría escribir esta fórmula:
mydata2$Size <- scale(mydata2$Size)
m3 <- glmer(Time ~ Loc+Sex+Size+Loc:Sex+Loc:Size+Sex:Size+(1|ID),
family = poisson, data = mydata2)
summary(m3)
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [
glmerMod]
Family: poisson ( log )
Formula: Time ~ Loc + Sex + Size + Loc:Sex + Loc:Size + Sex:Size + (1 | ID)
Data: mydata2
AIC BIC logLik deviance df.resid
3175.1 3183.1 -1579.6 3159.1 12
Scaled residuals:
Min 1Q Median 3Q Max
-20.0299 -9.2971 -0.3699 9.2025 20.4754
Random effects:
Groups Name Variance Std.Dev.
ID (Intercept) 0.8563 0.9254
Number of obs: 20, groups: ID, 10
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 5.36830 1.29897 4.133 3.58e-05 ***
LocOut 0.47290 0.05278 8.959 < 2e-16 ***
SexM 1.01397 1.36791 0.741 0.459
Size 0.49477 1.60517 0.308 0.758
LocOut:SexM -0.49963 0.05776 -8.650 < 2e-16 ***
LocOut:Size -0.12466 0.03118 -3.998 6.38e-05 ***
SexM:Size -0.85866 1.65415 -0.519 0.604
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) LocOut SexM Size LcO:SM LcOt:S
LocOut -0.025
SexM -0.950 0.025
Size 0.934 -0.004 -0.887
LocOut:SexM 0.024 -0.943 -0.026 0.005
LocOut:Size -0.011 0.414 0.012 -0.013 -0.448
SexM:Size -0.906 0.001 0.825 -0.970 -0.001 0.004
Ahora, utilizando ID
como variable aleatoria y una distribución poisson (sin sobredispersión), pasaron más tiempo fuera ¡y esto es muy significativo! Y tengo términos de interacción altamente significativos.
Me parece que la primera ecuación (usando el cuasibinomio) es la mejor pero los resultados son tan diferentes que no estoy seguro. Cualquier aportación sobre cómo analizar estos datos sería muy apreciada.