40 votos

¿Qué es theta en una regresión binomial negativa ajustada con R?

Tengo una pregunta sobre una regresión binomial negativa: Supongamos que usted tiene los siguientes comandos:

require(MASS)
attach(cars)
mod.NB<-glm.nb(dist~speed)
summary(mod.NB)
detach(cars)

(Tenga en cuenta que los coches es un conjunto de datos que está disponible en R, y realmente no me importa si este modelo tiene sentido).

Lo que me gustaría saber es: ¿Cómo puedo interpretar la variable theta (como se devuelve al final de una llamada a summary ). ¿Es éste el parámetro de forma de la distribución negbin y es posible interpretarlo como una medida de asimetría?

50voto

holger3000 Puntos 144

Uno de mis estudiantes me recomendó este sitio en mi Modelado de datos de recuento curso. Parece que hay mucha información errónea sobre el modelo binomial negativo, y especialmente con respecto al estadístico de dispersión y al parámetro de dispersión.

El estadístico de dispersión, que da una indicación de la extra-dispersión del modelo de recuento, es el estadístico de Pearson dividido por el DOF residual. $\mu$ es el parámetro de localización o de forma. Para los modelos de recuento, el parámetro de escala se fija en 1. El R glm y glm.nb $\theta$ es un parámetro de dispersión, o parámetro auxiliar. Lo llamé parámetro de heterogeneidad en la primera edición de mi libro, Regresión binomial negativa (2007, Cambridge University Press), pero lo llamo parámetro de dispersión en mi segunda edición de 2011. En mi próximo libro ofrezco una justificación completa de los distintos términos del modelo NB, Modelado de datos de recuento (Cambridge), que entra en prensa hoy. Debería estar a la venta (en rústica) el 15 de julio.

glm.nb y glm son inusuales en la forma en que definen el parámetro de dispersión. La varianza se da como $\mu+\frac{\mu^2}{\theta}$ en lugar de $\mu+\alpha\mu^2$ que es la parametrización directa. Es la forma en que se modela NB en SAS, Stata, Limdep, SPSS, Matlab, Genstat, Xplore y la mayoría de los programas. Cuando se compara glm.nb con los resultados de otros programas, recuerde esto. El autor de glm (que proviene de S-plus) y glm.nb aparentemente tomó la relación indirecta de McCullagh & Nelder, pero Nelder (que fue el cofundador de GLM en 1972) escribió su complemento del sistema kk para Genstat en 1993 en el que argumentaba que se prefería la relación directa. Él y su esposa solían visitarnos a mí y a mi familia cada dos años en Arizona, desde principios de 1993 hasta el año anterior a su muerte. Discutimos esto bastante a fondo, ya que yo había puesto una relación directa en el programa glm que escribí a finales de 1992 para el software Stata y Xplore, y para una macro de SAS en 1994.

El nbinomial en la función paquete msme en CRAN permite al usuario emplear la parametrización directa (por defecto) o indirecta (como opción, para duplicar glm.nb), y proporciona el estadístico de Pearson y los residuos a la salida. La salida también muestra el estadístico de dispersión, y permite al usuario parametrizar $\alpha$ (o $\theta$ ), dando estimaciones de los parámetros de la dispersión. Esto permite evaluar qué predictores contribuyen a la dispersión adicional del modelo. Este tipo de modelo suele denominarse binomio negativo heterogéneo. Pondré el nbinomial en la función Paquete COUNT antes de que salga el nuevo libro, además de una serie de nuevas funciones y scripts para los gráficos.

30voto

John with waffle Puntos 3472

Sí, theta es el parámetro de forma de la distribución binomial negativa, y no, no se puede interpretar como una medida de asimetría. Más precisamente:

  • La asimetría dependerá del valor de theta pero también en la media
  • no hay ningún valor de theta que le garantice la falta de inclinación

Si no lo he estropeado, en el mu / theta parametrización utilizada en la regresión binomial negativa, la asimetría es

$$ {\rm Skew}(NB) = \frac{\theta+2\mu}{\sqrt{\theta\mu(\theta+\mu)}} = \frac{1 + 2\frac{\mu}{\theta}}{\sqrt{\mu(1+\frac{\mu}{\theta})}} $$

En este contexto, $\theta$ suele interpretarse como una medida de sobredispersión con respecto a la distribución de Poisson. La varianza de la binomial negativa es $\mu + \mu^2/\theta$ Así que $\theta$ controla realmente el exceso de variabilidad en comparación con Poisson (que sería $\mu$ ), y no la inclinación.

3voto

Peter H. Puntos 11

Glm referencia binomial negativa : enter image description here

La binomial negativa 'r' de Wikipedia es el 'theta' de glm, lo que implica que el 'theta' de glm es el parámetro de forma. En términos simples, 'theta' de glm es el número de fallos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X