8 votos

Implicación de agrupados y sin agrupar los datos por Regresión de Poisson

De regresión de Poisson puede ser llevada a cabo utilizando Agrupados y sin agrupar los datos. Debe haber algunas diferencias entre estos dos métodos. Para estar seguro, he tratado de estudiar las diferencias en el uso de un conjunto de datos simulados. El resultado que encontraron fue que la estimación de los parámetros serán los mismos para ambos métodos, pero el residual deviances son muy diferentes.

Entonces, esto me trae a la pregunta de si existe la suposición de que la satisfacción de las necesidades antes de que podamos agrupar nuestros datos.

# Rcode for simulated data #
rm(list=ls())
set.seed(1)
##############################################################
# Creating Random Age, Gender, obs count and population      #
##############################################################
nsim = 10000
age = sample(20:70,size = nsim, replace = T)
Gender = sample(c("M","F"),size = nsim, replace = T)
obs.count = sample(c(0,0,1),size = nsim, replace = T)
population = sample(c(0.7,0.8,0.9,1), size=nsim, replace = T)
ungrouped.data = data.frame(age,Gender,obs.count,population)
grouped.data = aggregate(cbind(ungrouped.data$obs.count,ungrouped.data$population),list(ungrouped.data$age,ungrouped.data$Gender), FUN = "sum")
names(grouped.data) = c("age", "Gender", "obs.count", "population")

############################################
# GLM model for group and ungroup data set #
############################################
model.group = glm(obs.count ~ age + Gender + offset((log(population))), family = poisson, data = grouped.data)
summary(model.group)
model.ungroup = glm(obs.count ~ age + Gender + offset((log(population))), family = poisson, data = ungrouped.data)
summary(model.ungroup)  

3voto

Björn Puntos 457

Dado que las cantidades de la cuenta por la combinación de los factores en el modelo junto con el anti-registra los desplazamientos son suficientes estadísticas para una distribución de Poisson, no debería haber ninguna diferencia entre los dos análisis. Los distintos resultados de los análisis se debe a software-errores de uso.

En este caso, el problema es que el R glm función de no sé qué grados de libertad para el uso. Esto puede ser un problema de software, cuando el uso de suficientes estadísticas en lugar de observaciones individuales. Por ejemplo, PROC NLMIXED en SAS tiene el DF opción en el PROC NLMIXED instrucción para lidiar con este tipo de problema. No estoy seguro de cuál es la opción equivalente en glm es, pero supongo que existe.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X