He ejecutado el modelo binomial negativo inflado a cero y el modelo binomial negativo con el mismo conjunto de datos en R. Obtengo log(theta)= -2.47 para el modelo binomial negativo inflado a cero y log(theta)= -5.149 para el modelo binomial negativo. ¿Dónde puedo obtener una explicación de la diferencia entre estos dos parámetros de dispersión?
Respuesta
¿Demasiados anuncios?Esto no es sorprendente. Si suponemos que efectivamente hay inflación cero en los datos, es decir, que se observan más ceros de los esperados de una distribución binomial negativa (NB), entonces un ZINB sería el modelo "verdadero". Si entonces se ajusta sólo un modelo NB simple en lugar del verdadero ZINB, el modelo tiene que tratar de acomodar de alguna manera tanto los muchos ceros como también las observaciones de recuento más grandes. Y la forma más fácil de conseguirlo es aumentar la varianza de la distribución manteniendo su media relativamente constante. En un modelo NB esto significa que hay que disminuir el parámetro theta. Así que esto es probablemente lo que obtienes en tu aplicación.
Se trata de un conjunto de datos artificial que reproduce el mismo fenómeno: En primer lugar, simulamos un regresor x
y respuesta NB simple y
:
set.seed(0)
d <- data.frame(x = runif(500, -1, 1))
d$y <- rnbinom(500, mu = exp(0 + 1 * d$x), size = 1)
A continuación, añadimos la inflación cero con una probabilidad del 20% a y
:
d$y[runif(500) < 0.2] <- 0
Y entonces podemos ajustar el modelo ZINB "verdadero" y el modelo NB simple mal especificado:
library("pscl")
zinb <- zeroinfl(y ~ x | 1, data = d, dist = "negbin")
nb <- glm.nb(y ~ x, data = d)
Mientras que el ZINB obtiene los verdaderos coeficientes y el verdadero parámetro theta, el NB mal especificado conduce a estimaciones sesgadas de los coeficientes (que afectan al intercepto en este caso) y a una estimación menor de theta:
coef(zinb)
## count_(Intercept) count_x zero_(Intercept)
## 0.001301265 1.015114871 -1.151903296
coef(nb)
## (Intercept) x
## -0.2731501 1.0018826
zinb$theta
## [1] 0.8881113
nb$theta
## [1] 0.5047