11 votos

De regresión de Poisson suposiciones y cómo ponerlos a prueba en R

Me gustaría probar en lo de regresión se ajusta a mis datos mejor. Mi variable dependiente es un recuento, y tiene un montón de ceros.

Y necesitaría un poco de ayuda para determinar cuál es el modelo y la familia (poisson o quasipoisson, o cero-inflado de regresión de poisson), y cómo, para probar las hipótesis.

  1. De Regresión de Poisson: como tengo entendido, el fuerte suposición es que la variable dependiente media = varianza. ¿Cómo se prueba esto? Cómo cerrar juntos tienen que ser? Se incondicional o condicional de la media y la varianza se utiliza para esto? ¿Qué debo hacer si esta hipótesis no se sostiene?
  2. He leído que si la varianza es mayor que la media tenemos sobredispersión, y una posible manera de lidiar con esto es la inclusión de más variables independientes, o de la familia=quasipoisson. ¿Esta distribución tiene otros requisitos o supuestos? Prueba de lo que lo uso para ver si (1) o (2) se ajusta mejor, simplemente, anova(m1,m2)?
  3. También he leído que negativo-distribución binomial puede ser utilizado cuando sobredispersión aparece. ¿Cómo puedo hacer esto en R? ¿Cuál es la diferencia para quasipoisson?
  4. Cero-inflado de Regresión de Poisson: he leído que el uso de la vuong prueba comprueba cuál de los modelos se ajusta mejor.

    > vuong (model.poisson, model.zero.poisson)

    Es eso correcto? ¿Qué supuestos no un cero-inflado de regresión?

  5. UCLA Académico de los Servicios de Tecnología, Estadística Consulting Group tiene una sección sobre cero-inflado Regresiones de Poisson, y la prueba de la zeroinflated el modelo (a) en contra de los estándares de poisson modelo (b):

    > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
    > m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
    > vuong(m.a, m.b)

No entiendo lo de la | persons parte del primer modelo, y por qué usted puede comparar estos modelos. Yo había esperado que la regresión a ser el mismo y sólo tiene que utilizar una familia diferente.

9voto

Awais Tariq Puntos 116

1) Calcular la media y la varianza de la muestra. $\frac{\bar{X}}{S^2}$ debe $\mathrm{F}(1,n-1)$ distribuido, donde $n$ es el tamaño de la muestra y el proceso es realmente de Poisson, ya que son estimaciones independientes de la misma varianza.

Tenga en cuenta que esta prueba ignora las covariables - así que probablemente no es la mejor forma de comprobar la sobre-dispersión en esa situación.

Tenga en cuenta también que esta prueba es probablemente débil en contra de la cero-inflado hipótesis.

3) binomial negativa en R: use glm.nb de la MASS paquete, o el uso de la zeroinfl función de la pscl paquete a través de la binomial negativa enlace.

4) código postal (cero-inflado de Poisson) es un modelo de mezcla. Usted tiene un resultado binario, según la cual un sujeto pertenece a grupo a (donde 0 es cierta) o al grupo B (donde los recuentos de Poisson o neg binomio distribuido). Se observa una 0 es debido a que los sujetos del grupo a + los sujetos del grupo B que acaba de pasar a tener suerte. Ambos aspectos del modelo puede depender de las covariables: la pertenencia al grupo es modelada como una logística (log odds es lineal en las variables de control) y la de Poisson parte está inspirada en la forma usual: registro de decir es lineal en las variables. Por lo que necesita la costumbre supuestos para la logística (por cierto 0 parte) y el habitual hipótesis de una distribución de Poisson. En otras palabras, una postal de modelo no va a curar su sobredispersión problemas ya que sólo se cura una gran gomp de ceros.

5) no está seguro de lo que el conjunto de datos es, y no podía encontrar la referencia. zeroinfl necesidades de un modelo tanto para la parte de poisson y el binario (por cierto es 0 o no). Cierto 0 parte va segundo. Así m.una es decir que si la persona que es cierto es 0 o no depende de las "personas" - y suponiendo que el sujeto no es cierto 0, count es una función de camper y el niño. En otras palabras log(media) es una función lineal de camper y el niño de las asignaturas de las que no requieren un 0 a contar.

m.b es un modelo lineal general de la cuenta en términos de camper y el niño - tanto asume que los efectos fijos. La función de enlace es de Poisson.

0voto

shaiss Puntos 239
  1. biblioteca(pastecs)

stat.desc(dep_var) y, a continuación, echar un vistazo si la media y la varianza son iguales. Desde aquí también se puede calcular el % de ceros en su vector.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X