Uno de mis estudiantes me recomendó este sitio en mi Modelado de datos de recuento curso. Parece que hay mucha información errónea sobre el modelo binomial negativo, y especialmente con respecto al estadístico de dispersión y al parámetro de dispersión.
El estadístico de dispersión, que da una indicación de la extra-dispersión del modelo de recuento, es el estadístico de Pearson dividido por el DOF residual. $\mu$ es el parámetro de localización o de forma. Para los modelos de recuento, el parámetro de escala se fija en 1. El R glm
y glm.nb
$\theta$ es un parámetro de dispersión, o parámetro auxiliar. Lo llamé parámetro de heterogeneidad en la primera edición de mi libro, Regresión binomial negativa (2007, Cambridge University Press), pero lo llamo parámetro de dispersión en mi segunda edición de 2011. En mi próximo libro ofrezco una justificación completa de los distintos términos del modelo NB, Modelado de datos de recuento (Cambridge), que entra en prensa hoy. Debería estar a la venta (en rústica) el 15 de julio.
glm.nb
y glm
son inusuales en la forma en que definen el parámetro de dispersión. La varianza se da como $\mu+\frac{\mu^2}{\theta}$ en lugar de $\mu+\alpha\mu^2$ que es la parametrización directa. Es la forma en que se modela NB en SAS, Stata, Limdep, SPSS, Matlab, Genstat, Xplore y la mayoría de los programas. Cuando se compara glm.nb
con los resultados de otros programas, recuerde esto. El autor de glm
(que proviene de S-plus) y glm.nb
aparentemente tomó la relación indirecta de McCullagh & Nelder, pero Nelder (que fue el cofundador de GLM en 1972) escribió su complemento del sistema kk para Genstat en 1993 en el que argumentaba que se prefería la relación directa. Él y su esposa solían visitarnos a mí y a mi familia cada dos años en Arizona, desde principios de 1993 hasta el año anterior a su muerte. Discutimos esto bastante a fondo, ya que yo había puesto una relación directa en el programa glm que escribí a finales de 1992 para el software Stata y Xplore, y para una macro de SAS en 1994.
El nbinomial
en la función paquete msme en CRAN permite al usuario emplear la parametrización directa (por defecto) o indirecta (como opción, para duplicar glm.nb), y proporciona el estadístico de Pearson y los residuos a la salida. La salida también muestra el estadístico de dispersión, y permite al usuario parametrizar $\alpha$ (o $\theta$ ), dando estimaciones de los parámetros de la dispersión. Esto permite evaluar qué predictores contribuyen a la dispersión adicional del modelo. Este tipo de modelo suele denominarse binomio negativo heterogéneo. Pondré el nbinomial
en la función Paquete COUNT antes de que salga el nuevo libro, además de una serie de nuevas funciones y scripts para los gráficos.