45 votos

Es un "obstáculo modelo" realmente uno de los modelos? O sólo dos por separado, modelos secuenciales?

Considere la posibilidad de un obstáculo con el modelo de predicción de los datos de recuento y de normal predictor x:

set.seed(1839)
# simulate poisson with many zeros
x <- rnorm(100)
e <- rnorm(100)
y <- rpois(100, exp(-1.5 + x + e))

# how many zeroes?
table(y == 0)

FALSE  TRUE 
   31    69 

En este caso, tengo los datos de recuento, con 69 ceros y el 31 de positivo de la cuenta. No importa el momento en que este es, por definición, de la generación de datos procedimiento, un proceso de Poisson, porque mi pregunta es acerca de obstáculo modelos.

Digamos que yo quiero para manejar estas exceso de ceros por un obstáculo modelo. A partir de mi lectura sobre ellos, parecía como obstáculo modelos no son modelos reales per se-que se acaba de hacer dos análisis diferentes, de forma secuencial. En primer lugar, una regresión logística para predecir si o no el valor es positivo contra cero. En segundo lugar, un cero truncado de regresión de Poisson con sólo incluyendo el cero casos. Este segundo paso se sentía mal para mí, porque lo que es (un) tirar perfectamente bien los datos, (b) podría conducir a problemas de alimentación, puesto que gran parte de los datos son ceros, y (c) no, básicamente, un "modelo" en sí y de por sí, pero sólo de forma secuencial con dos modelos diferentes.

Lo he intentado un "obstáculo modelo" frente a la simple ejecución de la logística y cero de regresión de Poisson truncada por separado. Me dieron respuestas idénticas (estoy abreviar la salida, para ser breves):

> # hurdle output
> summary(pscl::hurdle(y ~ x))

Count model coefficients (truncated poisson with log link):
            Estimate Std. Error z value Pr(>|z|)  
(Intercept)  -0.5182     0.3597  -1.441   0.1497  
x             0.7180     0.2834   2.533   0.0113 *

Zero hurdle model coefficients (binomial with logit link):
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -0.7772     0.2400  -3.238 0.001204 ** 
x             1.1173     0.2945   3.794 0.000148 ***

> # separate models output
> summary(VGAM::vglm(y[y > 0] ~ x[y > 0], family = pospoisson()))

Coefficients: 
            Estimate Std. Error z value Pr(>|z|)  
(Intercept)  -0.5182     0.3597  -1.441   0.1497  
x[y > 0]      0.7180     0.2834   2.533   0.0113 *

> summary(glm(I(y == 0) ~ x, family = binomial))

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   0.7772     0.2400   3.238 0.001204 ** 
x            -1.1173     0.2945  -3.794 0.000148 ***
---

Esto parece a mí, ya que muchos diferentes representaciones matemáticas del modelo incluyen la probabilidad de que una observación es distinto de cero en la estimación de la positiva recuento de los casos, pero los modelos corrí por encima de ignorar por completo el uno al otro. Por ejemplo, esto es a partir del Capítulo 5, página 128 de Smithson & Merkle los Modelos Lineales Generalizados para Categóricas y Continuas Limitada Variables Dependientes:

...Segundo, la probabilidad de que $y$ asume ningún tipo de valor (cero y los enteros positivos) debe ser igual a uno. Esto no está garantizado en la Ecuación (5.33). Para lidiar con este asunto, se multiplica la probabilidad de Poisson por la de Bernoulli probabilidad de éxito $\pi$.
Estos temas requieren de nosotros para expresar el anterior obstáculo modelo como
$$ P(Y=Y|\boldsymbol{x,z,\beta\gamma}) = \begin{cases} 1-\hat\pi &\text{for } y=0 \\ \hat\pi\times\frac{\exp(-\hat\lambda)\hat\lambda^y/y!}{1-\exp(-\hat\lambda)} &\text{for } y=1,2,\ldots \end{casos} \etiqueta{5.34} $$ donde $\hat\lambda=\exp(\boldsymbol{x\beta})$, $\hat\pi = {\rm logit}^{-1}(\boldsymbol{z\gamma})$, $\boldsymbol x$ son las covariables para el modelo de Poisson, $\boldsymbol z$ son las covariables para el modelo de regresión logística, y $\hat{\boldsymbol{\beta}}$ $\hat{\boldsymbol{\gamma}}$ son los respectivos coeficientes de regresión....

Haciendo los dos modelos completamente separados el uno del otro-que parece ser lo obstáculo modelos-no veo cómo $\hat{\pi}$ está incorporado en la predicción de positivo recuento de los casos. Pero basado en cómo fue capaz de reproducir el hurdle función sólo con dos modelos diferentes, no veo la manera de $\text{logit}^{-1}(z\hat{\gamma})$ desempeña un papel en el truncado de regresión de Poisson.

Estoy comprensión obstáculo modelos correctamente? Parecen dos ser sólo el funcionamiento de dos secuencial de los modelos: en Primer lugar, una logística; en Segundo lugar, una distribución de Poisson, ignorando por completo los casos donde $y = 0$. Agradecería si alguien pudiera borrar mi confusión con el $\hat{\pi}$ negocio.


Si estoy en lo correcto que es lo obstáculo modelos, ¿cuál es la definición de un "obstáculo" del modelo, de manera más general? Imaginar dos escenarios diferentes:

  • Imaginar el modelado de la competitividad de las elecciones, buscando en la competitividad de las puntuaciones (1 - (ganador de la proporción de voto - finalista de la proporción de voto)). Este es [0, 1), porque no hay lazos (por ejemplo, 1). Un obstáculo con el modelo tiene sentido, porque hay un proceso (una) fue la elección indiscutible? y (b) si no lo era, lo que predijo la competitividad? Así que primero hacemos una regresión logística para analizar los 0 vs (0, 1). A continuación, hacemos beta de la regresión para analizar el (0, 1) de los casos.

  • Imagina un típico estudio psicológico. Las respuestas son [1, 7], como la tradicional escala de Likert, con un enorme efecto techo a las 7. Uno podría hacer un obstáculo con el modelo de regresión logística de [1, 7) frente a 7, y luego una regresión Tobit para todos los casos en que las respuestas observadas son < 7.

Sería seguro para llamar a ambas de estas situaciones "obstáculo" de los modelos, incluso si me estimación de dos modelos secuenciales (logística y, a continuación, la beta en el primer caso, la logística y, a continuación, Tobit en la segunda)?

51voto

Daniel Lew Puntos 39063

La separación de la log-verosimilitud

Es correcto que la mayoría de obstáculo modelos pueden ser estimados por separado (yo diría que, en lugar de en forma secuencial). La razón es que la log-verosimilitud puede ser descompuesto en dos partes que pueden ser maximizados por separado. Esto es debido a que $\hat \pi$ es un sólo un factor de escala (5.34) que se convierte en un término aditivo en la log-verosimilitud.

En la notación de Smithson & Merkle: $$ \begin{eqnarray*} \ell(\beta, \gamma; y, x, z) & = & \ell_1(\gamma; y, z) + \ell_2(\beta; y, x) \\ & = & \sum_{i: y_i = 0} \log\left\{1 - \mathrm{logit}^{-1}(z_i^\top \gamma)\right\} + \sum_{i: y_i > 0} \log\left\{\mathrm{logit}^{-1}(z_i^\top \gamma)\right\} + \\ & & \sum_{i: y_i > 0} \left[ \log \left\{f(y_i; \exp(x_i^\top \beta)\right\} - \log\left\{ 1 - f(0; \exp(x_i^\top \beta)\right\}\right] \end{eqnarray*} $$ donde $f(y; \lambda) = \exp(-\lambda) \lambda^y/y!$ es la densidad de la (untruncated) distribución de Poisson y $1 - f(0; \lambda) = 1 - \exp(-\lambda)$ es el factor de la cero truncamiento.

A continuación, se hace evidente que $\ell_1(\gamma)$ (modelo logit binario) y $\ell_2(\beta)$ (cero-Poisson truncado modelo) puede ser maximizada por separado, que conducen a la misma estimaciones de los parámetros, covarianzas, etc. como en el caso de que se maximiza de forma conjunta.

La misma lógica también funciona si el cero obstáculo probabilidad de $\pi$ no está parametrizado a través de un modelo logit, pero cualquier otro binario modelo de regresión, por ejemplo, un recuento de distribución derecho de censura en 1. Y, por supuesto, $f(\cdot)$ también podría ser otro conde de distribución, por ejemplo, la binomial negativa. Toda separación sólo se rompe si no se comparten los parámetros entre el cero obstáculo y el trunca contar parte.

Un destacado ejemplo sería si distribuciones binomial negativa con independiente $\mu$, pero común a $\theta$ parámetros empleados en los dos componentes del modelo. (Esto está disponible en hurdle(..., separate = FALSE, dist = "negbin", zero.dist = "negbin") en la countreg paquete de R-Forge, el sucesor del pscl de ejecución.)

Preguntas concretas

(a) Tirar perfectamente bien los datos: En el caso de que sí, en general no. Usted tiene los datos de un único modelo de Poisson sin exceso de ceros (aunque muchos ceros). Por lo tanto, no es necesario estimar modelos separados para los ceros y no-ceros. Sin embargo, si las dos partes están muy motivados por diferentes parámetros, a continuación, es necesario para dar cuenta de esto.

(b) Podría conducir a problemas de alimentación, puesto que gran parte de los datos son ceros: No necesariamente. Aquí, usted tiene una tercera parte de las observaciones que son "éxitos" (obstáculo cruces). Esto no se considera muy extremas en un modelo de regresión binaria. (Por supuesto, si no es necesario para la estimación de modelos independientes que iba a ganar el poder.)

(c) no, Básicamente, un "modelo" en sí y de por sí, pero sólo de forma secuencial con dos modelos diferentes: Esto es más filosófica y no voy a tratar de dar "una" respuesta. En su lugar, he de señalar pragmática puntos de vista. Para el modelo de estimación, puede ser conveniente destacar que los modelos están separados, porque - como - usted no necesita una función dedicada para la estimación. Para el modelo de la aplicación, por ejemplo, para las predicciones o residuos, etc., puede ser más conveniente a ver esto como un modelo único.

(d) ¿Sería seguro para llamar a ambas de estas situaciones 'obstáculo' modelos: En principio sí. Sin embargo, la jerga pueden variar entre comunidades. Por ejemplo, el cero obstáculo beta de la regresión es más comúnmente (y muy confusamente) llamado cero-inflado beta de la regresión. Personalmente, creo que la última muy engañosa debido a que la distribución beta no tiene ceros a la que podría ser inflados - pero es el término estándar en la literatura de todos modos. Por otra parte, el modelo tobit es una censurado modelo y, por tanto, no es un obstáculo modelo. Podría ser extendido, a pesar de que, por un probit (o logit) modelo además de un truncado modelo normal. En la econometría de la literatura esto se conoce como la Cragg dos partes del modelo.

Software de comentarios

El countreg paquete en R-Forge en https://R-Forge.R-project.org/R/?group_id=522 es el sucesor de aplicación a hurdle()/zeroinfl() de pscl. La principal razón por la que es (todavía) no CRAN es que queremos revisar el predict() interfaz, posiblemente de una manera que no es totalmente compatible con versiones anteriores. De lo contrario, la aplicación es bastante estable. En comparación con pscl viene con algunas características interesantes, por ejemplo:

  • Un zerotrunc() función que utiliza exactamente el mismo código como hurdle() para el cero-parte truncada de la modelo. Por lo tanto, ofrece una alternativa a VGAM.

  • Por otra parte, como d/p/q/r funciones para el cero truncado, obstáculo, y cero-inflado recuento de las distribuciones. Esto facilita mirando a estos como "uno" de la modelo, en lugar de modelos diferentes.

  • Para evaluar la bondad de ajuste, la gráfica muestra como rootograms y aleatorizado cuantil residual parcelas están disponibles. (Ver Kleiber Y Zeileis, 2016, El Estadístico Americano, 70(3), 296-303. doi:10.1080/00031305.2016.1173590.)

Los datos simulados

Sus datos simulados proviene de un único proceso de Poisson. Si e es tratado como un conocido regresor sería, entonces, un estándar de Poisson GLM. Si e es un desconocido ruido componente, entonces hay una cierta heterogeneidad no observada causando un poco de sobredispersión que podría ser capturado por un modelo binomial negativo o algún otro tipo de mezcla continua o de efectos aleatorios, etc. Sin embargo, como el efecto de la e es bastante pequeño aquí, nada de esto hace una gran diferencia. A continuación, estoy tratando e como un regresor (es decir, con cierto coeficiente de 1), pero también puede omitir este y uso negativa binomial o de Poisson modelos. Cualitativamente, todo esto conduce a una perspectiva similar.

## Poisson GLM
p <- glm(y ~ x + e, family = poisson)
## Hurdle Poisson (zero-truncated Poisson + right-censored Poisson)
library("countreg")
hp <- hurdle(y ~ x + e, dist = "poisson", zero.dist = "poisson")
## all coefficients very similar and close to true -1.5, 1, 1
cbind(coef(p), coef(hp, model = "zero"), coef(hp, model = "count"))
##                   [,1]       [,2]      [,3]
## (Intercept) -1.3371364 -1.2691271 -1.741320
## x            0.9118365  0.9791725  1.020992
## e            0.9598940  1.0192031  1.100175

Esto refleja que los tres modelos siempre se puede estimar la verdadera parámetros. Mirando los correspondientes errores estándar muestra que en este escenario (sin la necesidad de un obstáculo de parte) la distribución de Poisson GLM es más eficiente:

serr <- function(object, ...) sqrt(diag(vcov(object, ...)))
cbind(serr(p), serr(hp, model = "zero"), serr(hp, model = "count"))
##                  [,1]      [,2]      [,3]
## (Intercept) 0.2226027 0.2487211 0.5702826
## x           0.1594961 0.2340700 0.2853921
## e           0.1640422 0.2698122 0.2852902

Información estándar de los criterios a seleccionar el verdadero Poisson GLM como el mejor modelo:

AIC(p, hp)
##    df      AIC
## p   3 141.0473
## hp  6 145.9287

Y un Wald test de detectar correctamente que los dos componentes del obstáculo modelo no son significativamente diferentes:

hurdletest(hp)
## Wald test for hurdle models
## 
## Restrictions:
## count_((Intercept) - zero_(Intercept) = 0
## count_x - zero_x = 0
## count_e - zero_e = 0
## 
## Model 1: restricted model
## Model 2: y ~ x + e
## 
##   Res.Df Df  Chisq Pr(>Chisq)
## 1     97                     
## 2     94  3 1.0562     0.7877

Finalmente, ambos rootogram(p) y qqrplot(p) muestran que la distribución de Poisson GLM se adapta muy bien los datos y de que no hay exceso de ceros o sugerencias sobre nuevas misspecifications.

rootogram+qqrplot

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X