4 votos

¿Cómo se trata la sobredispersión en una regresión binomial negativa inflada por ceros Y cuando se espera que los datos tengan ceros?

Antecedentes: Estoy analizando el efecto de múltiples variables (linaje, especie vegetal ancestral, especie vegetal de cría, densidad larvaria, masa corporal) sobre diferentes rasgos: índice de ovigenia (carga inicial de huevos/fecundidad) y carga inicial de huevos (continua).

  1. Tengo un problema de sobredispersión con mis datos iniciales de carga de huevos. Hay muchas hembras vírgenes que emergen de plantas con 0 huevos, pero esto es de esperar. De todos modos, me di cuenta de cómo hacer una regresión binomial negativa cero-inflada para probar la sobredispersión en los datos de recuento distinto de cero. Mi Log(theta) es significativo, lo que indica sobredispersión. Mi pregunta es, ¿puedo seguir aceptando este modelo? Realmente no sé cómo corregir la sobredispersión en caso de que sea necesario.

Salida:

Call:
zeroinfl(formula = iel ~ population * adapthost + population * expthost + adapthost * 
expthost + expthost * f1dens2 + mass | population * adapthost + population * expthost + 
adapthost * expthost + expthost * f1dens2 + mass, data = data124.fem, dist = "negbin")

Pearson residuals:
Min      1Q  Median      3Q     Max 
-1.6907 -0.7544 -0.1254  0.5934  5.5976 

Count model coefficients (negbin with log link):
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)              2.51482    0.14779  17.016  < 2e-16 ***
populationSI             0.18640    0.06065   3.073 0.002118 ** 
adapthostm              -0.05384    0.07648  -0.704 0.481451    
expthostm               -0.70048    0.10820  -6.474 9.55e-11 ***
f1dens2                 -0.07933    0.02396  -3.311 0.000928 ***
mass                     0.04979    0.02010   2.477 0.013235 *  
populationSI:adapthostm -0.14024    0.11140  -1.259 0.208083    
populationSI:expthostm  -0.20515    0.08391  -2.445 0.014489 *  
adapthostm:expthostm     0.11850    0.09782   1.211 0.225711    
expthostm:f1dens2        0.07014    0.03570   1.965 0.049453 *  
Log(theta)               1.29683    0.06938  18.693  < 2e-16 ***

Zero-inflation model coefficients (binomial with logit link):
                    Estimate Std. Error z value Pr(>|z|)  
(Intercept)             -3.17317    1.41181  -2.248   0.0246 *
populationSI            -2.10861    1.74115  -1.211   0.2259  
adapthostm              -1.20007    1.58806  -0.756   0.4498  
expthostm                2.38466    1.29428   1.842   0.0654 .
f1dens2                  0.16995    0.37446   0.454   0.6499  
mass                    -0.14929    0.10097  -1.479   0.1393  
populationSI:adapthostm  0.30244    0.60851   0.497   0.6192  
populationSI:expthostm   1.61634    1.75901   0.919   0.3582  
adapthostm:expthostm     1.24332    1.60909   0.773   0.4397  
expthostm:f1dens2       -0.05971    0.38912  -0.153   0.8780  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Theta = 3.6577 
Number of iterations in BFGS optimization: 32 
Log-likelihood: -3352 on 21 Df
  1. Intenté hacer una regresión logística binomial y cuasibinomial en mis datos de ovigenia, que es la relación entre la carga inicial de huevos y la fecundidad de por vida. Esta respuesta está configurada en dos columnas: carga inicial de huevos y huevos restantes. Esta última es la diferencia entre la carga inicial de huevos y la fecundidad de por vida. Ambos análisis mostraron sobredispersión, quizás debido al número de hembras que salieron sin huevos. He intentado buscar "regresión logística cero-inflada", pero no he tenido suerte o nadie cree que sea un modelo que se pueda hacer. ¿Qué debo hacer?

Nota: El índice de ovigenia y la carga inicial de huevos son formas diferentes de evaluar la tendencia de una hembra a reproducirse precozmente.

Output:
Call:
glm(formula = oibound2 ~ population * adapthost + population * 
expthost + adapthost * expthost + expthost * f1dens2 + mass, 
family = "binomial", data = data124.fem)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-5.8838  -2.0061  -0.3359   1.2893   9.0248  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)             -1.89575    0.07926 -23.917  < 2e-16 ***
populationSI             0.31761    0.02988  10.631  < 2e-16 ***
adapthostm              -0.14315    0.03888  -3.681 0.000232 ***
expthostm               -0.97427    0.05862 -16.621  < 2e-16 ***
f1dens2                 -0.09291    0.01175  -7.905 2.68e-15 ***
mass                     0.07947    0.01104   7.197 6.18e-13 ***
populationSI:adapthostm -0.25905    0.05978  -4.333 1.47e-05 ***
populationSI:expthostm  -0.20346    0.04491  -4.530 5.90e-06 ***
adapthostm:expthostm     0.20463    0.05243   3.903 9.52e-05 ***
expthostm:f1dens2        0.06222    0.01946   3.197 0.001389 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 7775.9  on 1084  degrees of freedom
Residual deviance: 5970.6  on 1075  degrees of freedom
AIC: 9681

Number of Fisher Scoring iterations: 5

Output:
Call:
glm(formula = oibound2 ~ population * adapthost + population * 
expthost + adapthost * expthost + expthost * f1dens2 + mass, 
family = "quasibinomial", data = data124.fem)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-5.8838  -2.0061  -0.3359   1.2893   9.0248  

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)             -1.89575    0.18048 -10.504  < 2e-16 ***
populationSI             0.31761    0.06803   4.669 3.41e-06 ***
adapthostm              -0.14315    0.08854  -1.617 0.106223    
expthostm               -0.97427    0.13347  -7.300 5.60e-13 ***
f1dens2                 -0.09291    0.02676  -3.472 0.000538 ***
mass                     0.07947    0.02514   3.161 0.001619 ** 
populationSI:adapthostm -0.25905    0.13612  -1.903 0.057288 .  
populationSI:expthostm  -0.20346    0.10227  -1.990 0.046898 *  
adapthostm:expthostm     0.20463    0.11939   1.714 0.086838 .  
expthostm:f1dens2        0.06222    0.04431   1.404 0.160595    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasibinomial family taken to be 5.184705)

Null deviance: 7775.9  on 1084  degrees of freedom
Residual deviance: 5970.6  on 1075  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

1voto

Malwaregeek Puntos 119

@gung espero que esto haya mejorado algo ...

El libro Zur et al 2009 Mixed effects models in R capítulo 9 discute datos de conteo y binomios negativos inflados a cero que pueden ayudarte. Si tiene ceros no deseados y quiere datos de cero con recuentos que muestren sobredispersión, entonces un modelo ZINB, por ejemplo zeroinfl(... funciona. Si sus datos cero son los que realmente se produjeron y no son erróneos, entonces el enfoque será un modelo de obstáculos. Llevé a cabo ambos y eran casi idénticos.

Según Zur et al (2009), pág. 272, se puede utilizar un modelo ZANB. En el que no se discrimina entre ceros falsos o verdaderos.

model <- hurdle(formula, dist = "negbin", link = "logit", data = YourDF)

En primer lugar, ejecute Opciones para encontrar el modelo óptimo utilizando las puntuaciones AIC. Puede eliminar el término menos significativo de uno en uno y comprobar los valores AIC. Una vez que tenga el modelo óptimo, deberá validar el modelo comparando los residuos con los valores predichos y observar cualquier patrón. Si lo desea, puede realizar más diagnósticos.

Así empezarás.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X