7 votos

Overdispersed regresión de Poisson

En Gelman y la Colina de 2007 (http://www.stat.columbia.edu/~gelman/brazo/), mencionan que la adición de un $\epsilon \sim N(0,\sigma^2)$ plazo a una regresión de Poisson puede ser utilizado para dar cuenta de sobredispersión.

En un número de diferentes sitios he visto esto anteriormente, pero todos se refieren de nuevo a Gelman y de la Colina para una explicación de este, y el texto no aborda conceptualmente por qué esto tiene sentido (aunque yo les creo).

Entiendo que una de dos parámetros de la distribución (por ejemplo negativa binomial) puede ser utilizada en lugar de una distribución de Poisson, y esto tiene sentido para mí: tiene un parámetro adicional para la captura de la varianza. Sin embargo, no es en absoluto obvio para mí ¿por qué simplemente añadiendo un $\epsilon$ plazo debe captura de sobredispersión, como la resultante de Poisson todavía tiene media igual a su varianza (como siempre). ¿Alguien puede aclarar lo que está pasando aquí y por qué debe tenerse en cuenta para la sobredispersión, como una alternativa al uso de una binomial negativa? Y hay alguna forma más sencilla de interpretar cuánto sobredispersión esta $\epsilon$ debe capturar?

Gracias!

7voto

jasonmray Puntos 1303

La "resultante de Poisson" es sólo la distribución condicional de la respuesta que da a una (no observados) la realización de la normal de término de error: la respuesta incondicional (o la respuesta condicional sólo en el se dio cuenta de valores de los predictores, si estas son variables aleatorias) no tiene una distribución de Poisson.

Supongamos que la respuesta $Y$ tiene una distribución de Poisson

$$\newcommand{\E}{\operatorname{E}}\newcommand{\var}{\operatorname{Var}}Y|M \sim \mathrm{Pois}(M)$$

donde $M$ es una log-normal de la variable aleatoria con registro de ubicación dada por la suma de los productos de cada predictor $x_i$ con su coeficiente de $\beta_i$, y con registro de escala $\sigma$:

$$M = \exp(\beta_0 + \beta_1 x_1 + \ldots + \sigma Z)$$

Condicionalmente en el valor obtenido de $M$, $m$, $Y$ de hecho, ha varianza igual a la media

$$\E (Y|M=m) = \var (Y | M=m) = m$$

pero incondicionalmente no: la expectativa es incondicional

$$\E Y = \E \E Y|M = \E M \\ = \exp(\beta_0 + \beta_1 x_1 + \ldots + \tfrac{\sigma^2}{2}) \\ = \exp(\beta_0 + \beta_1 x_1 + \ldots) \exp(\tfrac{\sigma^2}{2})$$

y el incondicional de la varianza se

$$\var Y = \E \var Y|M + \var \E Y|M = \E M + \var M \\ = \exp(\beta_0 + \beta_1 x_1 + \ldots + \tfrac{\sigma^2}{2}) + [\exp(\sigma^2)-1]\exp(2(\beta_0 + \beta_1 x_1 + \ldots + \tfrac{\sigma^2}{2}))\\ = \exp(\beta_0 + \beta_1 x_1 + \ldots) \exp(\tfrac{\sigma^2}{2}) + \exp(\beta_0 + \beta_1 x_1 + \ldots)^2 [\exp(\sigma^2)-1] \exp(\sigma^2)$$

cada vez más mayor que el promedio como $\sigma$ aumenta.

La sobre-dispersión se mide por $\sigma$: como se tiende a cero, el modelo tiende a un modelo de Poisson sin sobre-dispersión. Tenga en cuenta que la dispersión de los parámetros en los diferentes modelos de familias que no tienen precisamente la misma interpretación. Hay más de una manera de especificar un modelo binomial negativo: por lo general de

$$\var Y = \E Y + \alpha (\E Y)^p$$

donde $p$=1 para el NB1 modelo, $p=2$ para el NB2 modelo; tenga en cuenta la sobre-dispersión del parámetro $\alpha$ relaciona la varianza de la media de forma diferente para diferentes valores de $p$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X