1 votos

Construcción de modelos y análisis de datos

Estoy analizando un conjunto de datos en R y me gustaría que me aconsejaran sobre cómo construir mi análisis para obtener la respuesta adecuada a mi pregunta.

Quiero saber si los animales permanecieron más tiempo en una zona, fuera de ella o si no hay diferencias significativas. También tengo datos sobre el sexo y el tamaño de cada animal, y quiero saber si estos tienen alguna influencia (es decir: los machos permanecen más tiempo en la zona que las hembras, etc.).

¿Los animales permanecen más tiempo dentro o fuera de la zona y está influenciado por el sexo y el tamaño? Una pregunta sencilla pero no estoy seguro de cómo construir mi análisis...

Mis datos son así:

head(mydata)

     ID Sex Size Time.in Time.out Total.Time Prop.in Prop.out
1 33199   F   63     493      421        914  0.5394   0.4606
2 33205   M   68       0      784        784  0.0000   1.0000
3 33206   M   69       0      155        155  0.0000   1.0000
4 33207   F   62       0      230        230  0.0000   1.0000
5 33208   M   66    3969     2804       6773  0.5860   0.4140
6 33210   F   63      88      263        351  0.2515   0.7485

Tenga en cuenta aquí que he dos variables de respuesta ( Time.in y Time.out ) para cada animal. También hay que tener en cuenta que el tiempo total que se registró para cada animal ( Total.Time ) es diferente (mínimo = 155, máximo = 6773 minutos). Prop.in y Prop.out es la proporción de tiempo que han pasado dentro y fuera, pero por ahora no lo voy a utilizar. Así que me parece que hay diferentes maneras de escribir mi ecuación.

La primera utilizando el cuasibinomio (debido a la sobredispersión):

m1 <- glm(cbind(Time.in,Time.out)~Sex*Size, data = mydata, family = quasibinomial)
summary(m1)

Call:
glm(formula = cbind(Time.in, Time.out) ~ Sex * Size, family = quasibinomial, 
data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-33.506  -16.149  -10.275    6.586   18.655  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) -11.6407    34.1662  -0.341    0.745
SexM         10.8232    34.6930   0.312    0.766
Size          0.1788     0.5498   0.325    0.756
SexM:Size    -0.1661     0.5569  -0.298    0.776

(Dispersion parameter for quasibinomial family taken to be 401.4389)

    Null deviance: 3109.9  on 9  degrees of freedom
Residual deviance: 2913.9  on 6  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

Así que mirando el intercepto, la pendiente negativa indica que pasaron menos tiempo de espera de la zona, sin embargo esto no es significativo. Y luego vemos que el Sexo, el Tamaño y su interacción no son significativos.

También he probado esta fórmula pero no estoy seguro de que sea la correcta:

m2 <- glm(Time.in~Time.out+Sex*Size+offset(log(Total.Time)), data = mydata, family = quasipoisson)
summary(m2)

Call:
glm(formula = Time.in ~ Time.out + Sex * Size + offset(log(Total.Time)), 
family = quasipoisson, data = mydata)

Deviance Residuals: 
       1         2         3         4         5         6         7         8  
  5.6004  -23.1852   -9.5818  -12.6324   -0.0967   -4.5854    1.6991  -16.0141  
       9        10  
 -5.7422   19.2723  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -8.3657927 21.8619928  -0.383    0.718
Time.out     0.0003216  0.0002717   1.183    0.290
SexM         3.2377839 22.3820096   0.145    0.891
Size         0.1166635  0.3509753   0.332    0.753
SexM:Size   -0.0607021  0.3569920  -0.170    0.872

(Dispersion parameter for quasipoisson family taken to be 221.1145)

    Null deviance: 1965.9  on 9  degrees of freedom
Residual deviance: 1505.1  on 5  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

Ahora, utilizando esta fórmula con quasipoisson y el desplazamiento para integrar el tiempo de registro diferente para cada animal, se puede ver que la estimación para Time.out es positivo, por lo que gastaron más tiempo fuera de la zona, ¡lo contrario del resultado anterior! De nuevo, esto no es significativo, pero en otros conjuntos de datos que tengo de otras regiones se vuelve significativo. Además, el sexo y el tamaño siguen sin ser significativos.

También podría rehacer mi conjunto de datos y utilizar modelos mixtos. Utilizando este formato de datos donde añado la variable Loc ( In ou Out ) y en el que cada identificación de animal aparece dos veces:

head(mydata2)

     ID Sex Size Loc Time Total.Time Time.prop
1 33199   F   63  In  493        914    0.5394
2 33199   F   63 Out  421        914    0.4606
3 33205   M   68  In    0        784    0.0000
4 33205   M   68 Out  784        784    1.0000
5 33206   M   69  In    0        155    0.0000
6 33206   M   69 Out  155        155    1.0000

Podría escribir esta fórmula:

mydata2$Size <- scale(mydata2$Size)

m3 <- glmer(Time ~ Loc+Sex+Size+Loc:Sex+Loc:Size+Sex:Size+(1|ID),
                 family = poisson, data = mydata2)

summary(m3)

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [
glmerMod]
 Family: poisson  ( log )
Formula: Time ~ Loc + Sex + Size + Loc:Sex + Loc:Size + Sex:Size + (1 |      ID)
   Data: mydata2

     AIC      BIC   logLik deviance df.resid 
  3175.1   3183.1  -1579.6   3159.1       12 

Scaled residuals: 
     Min       1Q   Median       3Q      Max 
-20.0299  -9.2971  -0.3699   9.2025  20.4754 

Random effects:
 Groups Name        Variance Std.Dev.
 ID     (Intercept) 0.8563   0.9254  
Number of obs: 20, groups:  ID, 10

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  5.36830    1.29897   4.133 3.58e-05 ***
LocOut       0.47290    0.05278   8.959  < 2e-16 ***
SexM         1.01397    1.36791   0.741    0.459    
Size         0.49477    1.60517   0.308    0.758    
LocOut:SexM -0.49963    0.05776  -8.650  < 2e-16 ***
LocOut:Size -0.12466    0.03118  -3.998 6.38e-05 ***
SexM:Size   -0.85866    1.65415  -0.519    0.604    
 ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) LocOut SexM   Size   LcO:SM LcOt:S
LocOut      -0.025                                   
SexM        -0.950  0.025                            
Size         0.934 -0.004 -0.887                     
LocOut:SexM  0.024 -0.943 -0.026  0.005              
LocOut:Size -0.011  0.414  0.012 -0.013 -0.448       
SexM:Size   -0.906  0.001  0.825 -0.970 -0.001  0.004

Ahora, utilizando ID como variable aleatoria y una distribución poisson (sin sobredispersión), pasaron más tiempo fuera ¡y esto es muy significativo! Y tengo términos de interacción altamente significativos.

Me parece que la primera ecuación (usando el cuasibinomio) es la mejor pero los resultados son tan diferentes que no estoy seguro. Cualquier aportación sobre cómo analizar estos datos sería muy apreciada.

0voto

quba Puntos 9

No estoy seguro de responder a tu pregunta, pero aquí tienes algunos consejos generales.

Debe comprobar las parcelas de diagnóstico plot(lm(..)) para tener alguna idea sobre la heteroskewdasticidad, ya que tus residuos están un poco fuera de lugar.

Creo que su problema se puede simplificar. Estar "dentro" y estar "fuera" es inverso. Dependiendo de su pregunta de investigación, yo elegiría sólo una de ellas como variable de resultado para empezar. Puede realizar un segundo modelo para confirmar los resultados de la inversa.

El uso de la probabilidad (%) de tiempo empleado para esa condición parece una buena opción debido a las diferentes veces que se midió a un animal. Sin embargo, puede considerar realizar un análisis de sensibilidad para averiguar si el tiempo en que realizó la medición influyó en su resultado. (si sólo miras a corto plazo, ¿cuál es la probabilidad de estar cruzando mucho entre los lugares?)

Es posible que desee trazar las probabilidades para el tiempo de entrada/salida (dependiendo de su elección) frente al sexo y el tamaño antes de ejecutar un modelo y mirar algunas estadísticas descriptivas para los diferentes grupos para tener una idea sobre el efecto.

Por último, ¿efectos aleatorios o no? Si crees que hay otros factores que contribuyen, aparte del tamaño y el sexo (estado de ánimo del animal -> identificación; ¿clima/temporada?), ese es el modelo que debes seguir. Depende de su pregunta de investigación. Aconsejaría ejecutar primero el modelo sin efectos aleatorios y comparar los dos.

Espero que esto ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X