19 votos

De Poisson o cuasi poisson en una regresión con los datos de recuento y sobredispersión?

Tengo los datos de recuento (demanda/oferta de análisis con el recuento del número de clientes, dependiendo de - posiblemente - de muchos factores). Traté de una regresión lineal con el normal de los errores, pero mi QQ-plot no es realmente buena. He intentado una transformación de registro de la respuesta: una vez más, la mala QQ-plot.

Así que ahora, estoy tratando de una regresión de Poisson con Errores. Con un modelo con todas las variables importantes, me sale:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

Residual de la desviación es mayor que el residual de grados de libertad: he sobredispersión.

¿Cómo puedo saber si necesito utilizar quasipoisson? ¿Cuál es el objetivo de quasipoisson en este caso? He leído este asesorar en "La I Libro" por Crawley, pero no veo el punto, ni una gran mejoría en mi caso.

26voto

bheklilr Puntos 113

Cuando se trata de determinar qué tipo de glm ecuación que se desea estimar, usted debe pensar acerca de las posibles relaciones entre el valor esperado de la variable objetivo, dado el lado derecho (rhs) de las variables y la varianza de la variable objetivo dado la carta de las variables. Las parcelas de los residuos frente a los valores ajustados de su modelo Normal puede ayudar con esto. Con la regresión de Poisson, la supuesta relación es que la varianza es igual al valor esperado; más bien restrictiva, creo que estarás de acuerdo. Con un "estándar" de la regresión lineal, la suposición es que la varianza es constante, independientemente del valor esperado. Para un cuasi-regresión de poisson, la varianza se supone que para ser una función lineal de la media; para la regresión binomial negativa, una función cuadrática.

Sin embargo, usted no está restringido a estas relaciones. La especificación de una "familia" (distinto de "cuasi") determina la media y la varianza de la relación. No tengo La R Libro, pero me imagino que tiene una tabla que muestra la familia de funciones y los correspondientes significar las relaciones de la varianza. Para el "cuasi" de la familia puede especificar cualquiera de varios significar las relaciones de la varianza, y usted puede incluso escribir tus propios; véase la R de la documentación. Puede ser que usted puede encontrar un ajuste mucho mejor mediante la especificación de un valor no predeterminado para la media y la varianza de la función en un "cuasi" del modelo.

Usted también debe prestar atención a que el rango de la variable de destino; en tu caso es no negativo de los datos de recuento. Si usted tiene una fracción sustancial de la baja en los valores de 0, 1, 2 - la continua distribuciones probablemente no encajan bien, pero si no, no hay mucho valor en uso de una distribución discreta. Es raro que te considerar Poisson y Normal de las distribuciones de los competidores.

9voto

Momo Puntos 5125

Tienes razón, estos datos probablemente podría ser overdispersed. Quasipoisson es un remedio: Se estima un parámetro de escala (que es fijo para los modelos de poisson como la varianza es también la media) y proporcionar un mejor ajuste. Sin embargo, no es de máxima verosimilitud de lo que se hacer, y algunos modelos de las pruebas y los índices no se pueden usar. Una buena discusión se puede encontrar en Venables y Ripley, Estadística Aplicada Moderna con S (Sección 7.5).

Una alternativa es el uso de un modelo binomial negativo, por ejemplo, el glm.nb() función en el paquete MASS.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X