3 votos

Desviación residual y grados de libertad - Distribución Binomial Negativa

Estoy intentando modelar datos de recuento utilizando el módulo statsmodels de python (Cervezas vendidas en un estadio de fútbol en función de los visitantes, "tilskuer", y datos meteorológicos).

model1 = smf.GLM(Y,Xall,sm.families.Poisson(sm.families.links.log)).fit()

Y es una respuesta de recuento, y Xall es una matriz de datos de 20 x 5 (20 observaciones, 5 variables, X se muestra a continuación).

enter image description here

Obtengo los resultados que se muestran en la tabla siguiente.

enter image description here

Mi primer instinto fue que esto era decente, y que todas las variables eran significativas. Miré el QQ-plot que parece decente (por lo que entiendo de él, mostrado abajo).

enter image description here

Sin embargo, cuando leí un poco más sobre estas cosas descubrí que para que un modelo de Poisson modele correctamente los datos (Varianza = Media) el residuo de Desviación/DF debería ser aproximadamente 1.

El mío es de aproximadamente 100.

Entonces, ¿significa esto que este modelo está completamente apagado? ¿Aunque el gráfico de QQ parezca decente? ¿O cómo debo interpretar esto?

Intenté usar una dist. binomial negativa en su lugar.

model3 = smf.GLM(Y,Xall,family=sm.families.NegativeBinomial(sm.families.links.log)).fit()

Esto dio el "error" opuesto. Ahora la desviación es MUY pequeña en comparación con el DF Resid.

enter image description here

Ps. Quiero añadir la variable "Tilskuer" como desplazamiento, pero no consigo que smf.GML() la acepte de ninguna manera (hace que la composición SVD "no converja").

3voto

Aaron Puntos 36

Para modelar datos de recuento en entornos de regresión, el GLM binomial negativo es mucho más preferible al GLM de Poisson. De hecho, me atrevería a decir que este último es un mal modelo que casi nunca debería utilizarse (véase la discusión aquí ). En general, los valores residuales de un modelo de Poisson no identificarán problemas de sobredispersión. Lo que suele ocurrir es que la sobredispersión se "absorbe" lo mejor posible (que no es bien) en las variables explicativas, y así los residuos no manifiestan necesariamente ningún patrón inusual. Esto estropea las relaciones inferidas entre las variables explicativas y la respuesta, pero no aparece como un problema en los gráficos de residuos.

Muchos analistas comienzan ajustando un MLG de Poisson y luego utilizan una prueba de sobredispersión para determinar si deben generalizar este modelo al MLG binomial negativo. Si se decide hacer esto, es preferible utilizar una prueba de hipótesis formal para la sobredispersión (véase por ejemplo aquí ), en lugar de apelar a comparaciones aproximadas de los resultados del modelo de regresión. En cualquier caso, por las razones que se explican en el post enlazado, mi opinión es que todo este proceso es innecesario, y es una mala práctica estadística --- en mi opinión, usted debe simplemente omitir el GLM de Poisson y la prueba de sobredispersión por completo, y comenzar con un GLM binomial negativo o alguna otra familia de dos parámetros que pueda ajustarse a la dispersión correctamente.

En este caso, parece que los datos están sobredimensionados, por lo que el MLG binomial negativo es apropiado. Como ya he dicho, yo habría empezado con esto en primer lugar. Como puede ver, una vez que ajusta este último modelo, las variables meteorológicas distintas de la temperatura ya no muestran evidencia de una relación estadística con la variable de respuesta. (Yo codifico todos mis modelos en R Por lo tanto, no estoy seguro de cómo añadir un desplazamiento cuando se ajusta un GLM en Python . Dejaré que otros respondan a ese aspecto de su pregunta).

0voto

Su planteamiento sería correcto, pero en este caso quizá no.

Si hay sobredispersión con un poisson, entonces debería utilizar un modelo binomial negativo o un quasipoisson, como hizo usted.

Para comprobar la sobredispersión, tal vez sea necesario que la relación de la desviación residual con la DF residual sea mayor o igual a 3. No estoy seguro de este número.

Sin embargo sugiero utilizar la distribución de tweedie, ya que no tienes una variable discreta, sino continua. "Las distribuciones de Tweedie con un parámetro entre 1 y 2 son útiles para modelar datos continuos con ceros exactos". (ver referencia)

Referencia : "Modelos lineales generalizados - con ejemplos en R" - página: 463.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X