33 votos

Binomial negativa de regresión pregunta - es un modelo pobre?

Estoy leyendo un artículo muy interesante de los Vendedores y Shmueli en modelos de regresión para datos de conteo. Cerca del comienzo (p. 944) citan McCullaugh y Nelder (1989), diciendo que la regresión binomial negativa es impopular y tiene una problemática enlace canónico. He encontrado el referido pasaje y dice: (p. 374 de M y N)

"Poco uso parece haber sido hecho de la distribución binomial negativa en las aplicaciones; en particular, el uso del enlace canónico es problemática porque hace que el predictor lineal una función de un parámetro de la varianza de la función".

En la página anterior que dar esa función de enlace como

$$\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right)$$

y la varianza de la función

$$V = \mu + \frac{\mu^2}{k}.$$

La distribución está dada como

$$Pr(Y = Y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}}$$

He encontrado NB regresión a ser bastante ampliamente utilizado (y se recomienda en varios libros). Son todos estos usos y recomendaciones en el error?

¿Cuáles son las consecuencias de esta problemática enlace?

10voto

AdamSane Puntos 1825

Estoy de acuerdo con las afirmaciones de varios puntos de vista:

i) Mientras que el enlace canónico bien puede ser 'problemáticos', no es inmediatamente obvio que alguien estará interesado en que link - mientras que, por ejemplo, el registro de enlace en la distribución de Poisson es a menudo conveniente y natural, y para que la gente a menudo están interesados en eso. Aún así, en la distribución de Poisson el caso de personas que se ven en otras funciones de enlace.

Así que no es necesario restringir nuestra consideración para el enlace canónico.

Una problemática enlace' no es en sí una especialmente revelador argumento en contra de la regresión binomial negativa.

El registro de enlace, por ejemplo, parece ser una opción razonable en algunos binomial negativa aplicaciones, por ejemplo, en los casos donde los datos pueden ser condicionalmente de Poisson, pero hay heterogeneidad en la tasa de Poisson - el registro de enlace puede ser casi tan interpretable como es en el caso de Poisson.

Por comparación, yo uso Gamma GLMs razonablemente a menudo, pero no recuerdo (ejemplos de libro a un lado) nunca haber utilizado su enlace canónico - yo uso el registro de enlace casi siempre, ya que es un eslabón más natural a utilizar para el tipo de problemas que tienden a trabajar.

ii) "Poco parece haber sido hecho ... en aplicaciones" puede haber sido sólo acerca de la verdadera en 1989, pero no creo que se encuentra ahora. [Incluso si lo hiciera ahora, eso no es un argumento que es un modelo pobre, sólo que no ha sido ampliamente utilizado - que podría pasar por todo tipo de razones.]

Binomial negativa de regresión se ha vuelto más ampliamente utilizado, ya que es más ampliamente disponible, y veo que es utilizado en aplicaciones mucho más ahora. En R, por ejemplo, hacer uso de las funciones en MASS que lo apoyan (y el libro correspondiente, Venables y Ripley, Estadística Aplicada Moderna con S, usa la regresión binomial negativa en algunas aplicaciones interesantes) --, y yo he usado alguna funcionalidad en un par de otros paquetes, incluso antes de que yo lo he utilizado en R.

Yo habría usado binomial negativa de regresión más, incluso antes, si hubiera sido fácilmente disponible para mí; espero que el mismo es cierto para muchas personas - por lo que el argumento de que es poco utilizado parece ser uno más de la oportunidad.

Aunque es posible evitar la regresión binomial negativa, (decir mediante el uso de overdispersed de Poisson modelos) o un número de situaciones en las que realmente no importa mucho lo que haces, hay varias razones por las que no es del todo satisfactoria.

Por ejemplo, cuando mi interés es más hacia la predicción intervalos de las estimaciones de los coeficientes, el hecho de que los coeficientes no cambian no puede ser una razón suficiente para evitar la binomial negativa.

Por supuesto, aún hay otras opciones que el modelo de dispersión (tales como los Conway-Maxwell-Poisson, que es el tema del artículo que usted menciona); mientras que los que son sin duda las opciones, a veces hay situaciones en las que estoy muy feliz de que la binomial negativa es una razonablemente buena 'ajuste' como un modelo para mi problema.

Son todos estos usos y recomendaciones en el error?

Yo realmente no lo creo! Si fuera así, debería haber llegado a ser razonablemente claro por ahora. De hecho, si McCullagh y Nelder había seguido a sentirse de la misma manera, ellos no tenían la falta de oportunidades, ni la falta de foros en los que para aclarar las cuestiones pendientes. Nelder ha pasado (2010), pero McCullagh aparentemente es todavía alrededor.

Si ese breve pasaje en McCullagh y Nelder es todo lo que tienen, yo diría que es un argumento débil.

¿Cuáles son las consecuencias de esta problemática enlace?

Creo que el problema es sobre todo de la varianza de la función y la función de enlace están relacionadas con el lugar de no relacionadas (como es el caso de casi todos los otros principales GLM las familias en el uso popular), que hace que la interpretación en la escala de la predictor lineal menos sencillo (que no quiere decir que es el único problema; yo creo que es el principal problema para un profesional). No es mucho de un acuerdo.


A modo de comparación, veo Tweedie modelos que son mucho más generalizada en los últimos tiempos, y no veo a la gente acerca de sí mismo con el hecho de que $p$ aparece tanto en la variación de la función y el enlace canónico (ni en la mayoría de los casos, incluso preocuparse demasiado por el enlace canónico).

Nada de esto es tomar algo de distancia de Conway-Maxwell-modelos de Poisson (el tema de los Vendedores y Shmueli de papel), que son también cada vez más ampliamente utilizado -- yo ciertamente no quiero tomar parte en una binomial negativa vs COM-Poisson partido de tiro.

Yo simplemente no lo veo como una-o-el-otro, más de lo que (ahora hablando más ampliamente) tomo puramente Bayesiano ni puramente frecuentista postura sobre los problemas estadísticos. Voy a usar lo que me parece la mejor opción en las circunstancias particulares del caso en el que estoy, y cada elección tiende a tener ventajas y desventajas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X