Estoy intentando modelar datos de recuento utilizando el módulo statsmodels de python (Cervezas vendidas en un estadio de fútbol en función de los visitantes, "tilskuer", y datos meteorológicos).
model1 = smf.GLM(Y,Xall,sm.families.Poisson(sm.families.links.log)).fit()
Y es una respuesta de recuento, y Xall es una matriz de datos de 20 x 5 (20 observaciones, 5 variables, X se muestra a continuación).
Obtengo los resultados que se muestran en la tabla siguiente.
Mi primer instinto fue que esto era decente, y que todas las variables eran significativas. Miré el QQ-plot que parece decente (por lo que entiendo de él, mostrado abajo).
Sin embargo, cuando leí un poco más sobre estas cosas descubrí que para que un modelo de Poisson modele correctamente los datos (Varianza = Media) el residuo de Desviación/DF debería ser aproximadamente 1.
El mío es de aproximadamente 100.
Entonces, ¿significa esto que este modelo está completamente apagado? ¿Aunque el gráfico de QQ parezca decente? ¿O cómo debo interpretar esto?
Intenté usar una dist. binomial negativa en su lugar.
model3 = smf.GLM(Y,Xall,family=sm.families.NegativeBinomial(sm.families.links.log)).fit()
Esto dio el "error" opuesto. Ahora la desviación es MUY pequeña en comparación con el DF Resid.
Ps. Quiero añadir la variable "Tilskuer" como desplazamiento, pero no consigo que smf.GML() la acepte de ninguna manera (hace que la composición SVD "no converja").