9 votos

¿Cuál es la diferencia entre GLM y GEE?

¿Cuál es la diferencia entre un GLM (modelo de regresión logística) con una variable respuesta binaria que incluye la asignatura y el tiempo como variables de control y el análogo GEE modelo que tiene en cuenta la correlación entre las mediciones en varios puntos de tiempo?

Mi GLM parece:

Y(binary) ~ A + B1X1(subject id) + B2X2(time) 
              + B3X3(interesting continuous covariate)

con función de enlace logit.

Estoy buscando un simple (orientado a las ciencias sociales) la explicación de cómo y por qué el tiempo es tratada de forma diferente en los dos modelos y las consecuencias que iba a ser para la interpretación.

12voto

Sean Hanley Puntos 2428

Puede haber un mejor y más detallado de la respuesta fuera no, pero te puedo dar algunos simple, rápida pensamientos. Parece que usted está hablando sobre el uso de un Modelo Lineal Generalizado (por ejemplo, un típico regresión logística) para que se ajuste a ajuste de los datos recogidos de algunos temas en múltiples puntos de tiempo. A primera vista, veo dos problemas evidentes con este enfoque.

En primer lugar, este modelo se supone que los datos son independientes dado que las covariables (que es, después de haber representado un código ficticio para cada sujeto, similar a la de un individuo término de intersección, y un tiempo lineal de la tendencia que es igual para todos). Esto es demasiado raro para ser verdad. En su lugar, es casi seguro que se las autocorrelaciones, por ejemplo, dos observaciones de un mismo individuo más cerca en el tiempo va a ser más similares que dos observaciones más separados en el tiempo, incluso después de haber representaron el tiempo. (Aunque bien puede ser independiente de si también se incluye un subject ID x time interacción, es decir, una única tendencia del tiempo para todo el mundo-pero esto agravaría el problema siguiente.)

En segundo lugar, usted va a quemar un enorme número de grados de libertad para estimar un parámetro para cada participante. Es probable que usted tenga relativamente pocos grados de libertad con el cual tratar de estimar con precisión los parámetros de interés (por supuesto, esto depende de la cantidad de medidas que tienen por persona).

Irónicamente, el primer problema que significa que sus intervalos de confianza son demasiado estrechos, mientras que la segunda significa que el CIs será mucho más amplia de lo que hubieran sido si no hubiera desperdiciado la mayoría de sus grados de libertad. Sin embargo, no cuento con estos dos de equilibrio de cada uno de los otros. Para lo que vale, creo que sus estimaciones de los parámetros sería imparcial (aunque puedo estar equivocado).

El uso de las Ecuaciones de Estimación Generalizada es apropiado en este caso. Cuando ajuste un modelo de uso de la GEE, puede especificar una estructura correlacional (tales como AR(1)), y puede ser bastante razonable de que los datos son independientes condicional en tanto su covariables y la correlación de la matriz especificada. Además, el GEE estimación de la media de población de la asociación, así que no tienes que grabar un grado de libertad para cada participante-en esencia son un promedio de más de ellos.

En cuanto a la interpretación, hasta donde yo soy consciente, sería el mismo en ambos casos: dado que los otros factores permanecen constantes, una unidad de cambio en el X3 está asociado con un B3 cambio en las probabilidades de registro de 'éxito'.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X