La diferencia en la estimación de la intercepta no es a causa de la sobredispersión en los datos. Pedro Flom comentario es la respuesta correcta. Para ver esto, cambiar el lm()
modelo en un glm()
modelo con una gaussiana de la familia:
glm(data ~ 1, family = gaussian)
glm(data ~ 1, family = gaussian(link="log"),start=c(20))
El enlace canónico de la gaussiana de la familia es la identidad de vínculo, de modo que se obtiene exactamente el mismo presupuesto como para lm()
. El cambio en el vínculo para el registro de la función de enlace le da la misma estimación de la intersección de que usted está recibiendo de la distribución de Poisson y NB modelos. El modelo gaussiano con registro de enlace es $log(E(Y|X))=θ^′X$, mientras que el glm con identidad enlace es $E(Y|X)=θ^′X$. Es por eso que exponentiating la estimación de intercepción para el vínculo de registro de modelos de $e^{5.453} = 233$ le da la estimación de la intersección de la identidad de enlace de los modelos usted está utilizando la inversa de la función de enlace. Llegar el esperado # de árboles por parcela para este modelo simple es muy fácil con sólo el valor del coeficiente, pero una vez que usted agregue los efectos del tratamiento y otras variables que va a ser más difícil. Usted debe utilizar el predict()
función como esta:
data = data.frame(saplings=data,
treat=gl(2,6,24,label=c("control","treat")),
year=gl(2,12,label=c("2004","2011")))
test.glm = glm.nb(saplings~treat*year,link=log,data=data)
nd = data.frame(treat=gl(2,1,4,label=c("control","treat")),
year=gl(2,2,label=c("2004","2011")))
predict(test.glm,newdata=nd,type="response")
También ver a esta pregunta, y lea el Capítulo 6 de Zuur et al (2007),"el Análisis de Datos Ecológicos"