14 votos

Poisson vs cuasi-Poisson

En el modelado de reclamar el recuento de datos en un entorno de seguros, comencé con la de Poisson, pero entonces se dio cuenta de sobredispersión. Un Cuasi-Poisson mejor modelado la mayor media de la varianza de la relación de los básicos de Poisson, pero me di cuenta de que los coeficientes fueron idénticos en ambos casos de Poisson y Cuasi-modelos de Poisson.

Si esto no es un error, ¿por qué está sucediendo esto? ¿Cuál es el beneficio de la utilización de Cuasi-Poisson más de Poisson?

Cosas a tener en cuenta:

  • El subyacente de que las pérdidas son de un exceso de base, que (creo) impidió la Tweedie de trabajo -, pero fue la primera distribución que lo intenté. Yo también examinó la NOTA, POSTAL, ZINB, y Obstáculo modelos, pero aún así la Cuasi-Poisson proporciona el mejor ajuste.
  • He probado de sobredispersión a través de dispersiontest en el AER paquete. Mi parámetro de dispersión fue de aproximadamente 8.4, con p-valor a los 10^-16 magnitud.
  • Estoy usando glm() con la familia = poisson o quasipoisson y un vínculo al registro de para el código.
  • Cuando se ejecuta el código de Poisson, me salen con las advertencias de "En dpois(y, mu, log = TRUE) : no-entero x = ...".

Útil SE los Hilos por Ben orientación:

  1. Matemáticas básicas de las desviaciones de regresión de Poisson
  2. Impacto de las Compensaciones en los Coeficientes de
  3. Diferencia entre el uso de la Exposición como Covariable vs Offset

27voto

Ben Bolker Puntos 8729

Esto es casi un duplicado; el vinculado pregunta explica que usted no debe esperar a que el coeficiente de estimaciones, residual de la desviación, ni grados de libertad para cambiar. La única cosa que cambia cuando se mueve de Poisson cuasi-Poisson es que un parámetro de escala que anteriormente estaba fijado a 1 se calcula a partir de algunos estimación de la variabilidad residual/la falta de bondad de ajuste (generalmente se estima a través de la suma de los cuadrados de la prueba de Pearson de los residuos ($\chi^2$) dividido por el residual df, aunque asintóticamente utilizando el residuo de la desviación da el mismo resultado). El resultado es que los errores estándar son escaladas por la raíz cuadrada de este parámetro de escala, con los consiguientes cambios en los intervalos de confianza y $p$-valores.

El beneficio de cuasi-verosimilitud es la que fija la falacia básica de suponiendo que los datos son de Poisson (= homogéneo, independiente de la cuenta); sin embargo, solucionar el problema en esta forma potencialmente máscaras de otros problemas relacionados con los datos. (Consulte a continuación). Cuasi-verosimilitud es una forma de manipulación de sobredispersión; si no dirección de sobredispersión de alguna manera, sus coeficientes de ser razonable, pero su inferencia (CIs, $p$-de valores, etc.) será basura.

  • Como comente anteriormente, hay un montón de diferentes enfoques para la sobredispersión (Tweedie, diferentes binomial negativa parametrizaciones, cuasi-verosimilitud, cero-inflado/alteración).
  • Con un factor de sobredispersión de >5 (8.4), me preocuparía un poco acerca de si está siendo impulsado por algún tipo de modelo mis-fit (valores atípicos, cero inflación [que veo ya has probado], la no linealidad) más que la representación en el consejo-heterogeneidad. Mi enfoque general esta es la gráfica de la exploración de los datos en bruto y la regresión de diagnóstico ...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X