Respuesta corta
Sobredispersión no importa a la hora de estimar un vector de coeficientes de regresión para la media condicional en un cuasi/modelo de poisson! Usted va a estar bien si usted se olvida de la sobredispersión aquí, el uso de glmnet con la familia de distribuciones poisson y sólo se centran en si su cruz validado en el error de predicción es baja.
La Calificación que se presenta a continuación.
Poisson, Cuasi-Poisson y la estimación de funciones:
Yo digo que la anterior, porque sobredispersión (OD) en una distribución de poisson o cuasi-poisson modelo de influencias nada que ver con la dispersión (o la varianza o de la escala o de la heterogeneidad o la propagación o lo que sea que quieras llamarlo) y, como tal, tiene un efecto sobre los errores estándar y los intervalos de confianza , pero deja que las estimaciones para la media condicional de y (llamado μ) sin tocar. Esto se aplica especialmente a la descomposición lineal de la media, como x⊤β.
Esto proviene del hecho de que la estimación de las ecuaciones para los coeficientes de la media condicional son prácticamente la misma para ambos poisson y cuasi-modelos de poisson. Cuasi-poisson especifica la variación de la función en términos de la media y un parámetro adicional (es decir θ) Var(y)=θμ (con de Poisson θ=1), pero el θ no resultan ser relevantes a la hora de optimizar la ecuación de estimación. Por lo tanto el θ no juega ningún papel en la estimación de la β cuando condicional de la media y la varianza son proporcionales. Por lo tanto, las estimaciones puntuales ^β son idénticos para los cuasi - y de poisson modelos!
Permítanme ilustrar con un ejemplo (se nota que uno necesita desplazarse para ver todo el código y salida) :
> library(MASS)
> data(quine)
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.71538 0.06468 41.980 < 2e-16 ***
AgeF1 -0.33390 0.07009 -4.764 1.90e-06 ***
AgeF2 0.25783 0.06242 4.131 3.62e-05 ***
AgeF3 0.42769 0.06769 6.319 2.64e-10 ***
SexM 0.16160 0.04253 3.799 0.000145 ***
EthN -0.53360 0.04188 -12.740 < 2e-16 ***
LrnSL 0.34894 0.05204 6.705 2.02e-11 ***
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: 2299.2
Number of Fisher Scoring iterations: 5
> summary(modqp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.7154 0.2347 11.569 < 2e-16 ***
AgeF1 -0.3339 0.2543 -1.313 0.191413
AgeF2 0.2578 0.2265 1.138 0.256938
AgeF3 0.4277 0.2456 1.741 0.083831 .
SexM 0.1616 0.1543 1.047 0.296914
EthN -0.5336 0.1520 -3.511 0.000602 ***
LrnSL 0.3489 0.1888 1.848 0.066760 .
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
(Dispersion parameter for quasipoisson family taken to be 13.16691)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
Como usted puede ver, a pesar de que tenemos una fuerte sobredispersión de 12.21 en este conjunto de datos (por deviance(modp)/modp$df.residual
) de los coeficientes de regresión (estimaciones puntuales) no cambia en absoluto. Pero observe cómo los errores estándar de cambio.
La cuestión del efecto de la sobredispersión en penalizado modelos de poisson
Penalizado modelos son en su mayoría utilizados para la predicción y la selección de variables y no (todavía) para la inferencia. Así que las personas que utilizan estos modelos están interesados en los parámetros de regresión de la media condicional, sólo reducido a cero. Si la penalización es la misma, la estimación de las ecuaciones para el medio condicional derivada de la penalizado (cuasi-)probabilidad tampoco dependen θ y por lo tanto sobredispersión no importa para las estimaciones de β en un modelo del tipo:
g(μ)=x⊤β+f(β)
como β se calcula de la misma manera para cualquier variación de la función de la forma θμ, así que de nuevo para todos los modelos donde condicional de la media y la varianza son proporcionales. Esto es igual que en la unpenalized de poisson/quasipoisson modelos.
Si usted no quiere tomar en su valor nominal y evitar los cálculos, se puede encontrar apoyo empírico en el hecho de que en glmnet
, si se establece el parámetro de regularización a 0 (y por lo tanto f(β)=0) que terminan bastante donde la distribución de poisson y quasipoisson modelos de la tierra (véase la última columna debajo de donde lambda es de 0.005).
> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
s0 s1 s2 s3
(Intercept) 2.7320435 2.7221245 2.7188884 2.7172098
(Intercept) . . . .
AgeF1 -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2 0.2496120 0.2544253 0.2559408 0.2567880
AgeF3 0.4079635 0.4197509 0.4236024 0.4255759
SexM 0.1530040 0.1581563 0.1598595 0.1607162
EthN -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL 0.3336885 0.3428815 0.3459650 0.3474745
Entonces, ¿qué hace OD hacer para penalizado modelos de regresión? Como usted puede saber, todavía se debate acerca de la forma correcta para calcular los errores estándar de las penalizado modelos (ver por ejemplo, aquí ) y glmnet
no sale ningún de todos modos, probablemente por esa razón. Puede muy bien ser que la OD podría influir en la inferencia de parte de la modelo, tal como lo hace en el no penalizado caso, pero a menos cierto consenso con respecto a la inferencia en este caso se alcanza, no lo vamos a saber.
Como un aparte, uno puede salir de todo este desorden detrás de si uno está dispuesto a adoptar un Bayesiano de vista de donde penalizado modelos son solo modelos estándar con un previo específico.