1 votos

¿Cómo tratar la variable del año en el análisis de datos longitudinales observacionales?

Tengo una gran cantidad de datos observacionales longitudinales multinivel de la concentración de ciertos productos químicos recogidos en varios sitios durante 10 años (1990-2010). Los sitios se clasifican en diferentes tipos de sitios como A, B y C. En el conjunto de datos, la variable del año se codifica como 1990, 1991, 1993, etc. En un año, puede haber muchas muestras recogidas en un sitio. No es que haya sólo un punto de datos en un período de 1 año por sitio (como muchos datos longitudinales experimentales en los que hay mediciones repetidas por 1 sujeto y sólo hay un punto de datos en cada punto de tiempo). Algunos sitios también han cerrado a lo largo de los años, pero los estoy agrupando en grupos porque no me interesan los sitios individuales.

str(datos)

data.frame': 60.000 obs. de 22 variables:

$ ID          : int...   3453, 3492, 4385
    $ SiteID      : Factor w/ 15000 levels "1234","1235”, “1236”, ecttg
$ Year        : int  1993 1993 1993 1993 1993 1993 1993 1993 1993 1993 ...
    $ NewCom.Group: Factor w/ 5 levels "A”,  “B”, “C",..: 1 1 1 1 2 
$ NewLoc.Group: Factor w/ 3 levels "","Type1",”Type2 “,..: 1 2 1
    $ NewJobGroup : Factor w/ 4 levels "Production",..: 4 2 4 2 2
$ NewIndJob   : Factor w/ 109 levels "TramOp",..: ..
    $ Log.conc : num  -0.5978 -0.0726 -0.7765 -1.1712 -1.273 ...
$ Log.Qconc   : num  3.5 3.14 3.76 2.89 3.09 ... 

Me gustaría ver si la concentración ha disminuido a lo largo de los años y por grupos.
Mi modelo mixto es algo así:

Model.1 = lme(log.conc ~ Year + NewCom.Group, random=~1|siteID, data=data)

Mi pregunta es cómo debo tratar Year variable para responder a la cuestión de la concentración a lo largo de los años.

  1. ¿Debo recodificar el año como 1, 2, 3, 4 y dejarlo como continuo?

  2. ¿Debo recodificar el año como 1, 2, 3, 4 y hacerlo categórico? Time <- factor(Time)

  3. Dejar el año como está y tratarlo como variable continua (¿Es lo mismo que en 1?)

  4. Que sea categórico, Year <- factor(Year)

Sólo quiero asegurarme de que el modelo no compara la concentración de los años siguientes con el primer año solamente.
¿Qué implica cada una de esas opciones en la interpretación del resultado?

5voto

simmosn Puntos 304

La única diferencia entre los resultados de los enfoques (1) y (3) es que el intercepto de su modelo será diferente. La regresión sitúa una línea a través de la media del resultado y de cada predictor; como la media de 1990-2010 es diferente de la media de 1--21, el intercepto tiene que desplazarse para que las regresiones pasen por estos puntos.

La única diferencia entre los resultados de los enfoques (2) y (4) son las etiquetas que se adjuntarán a su salida---1--21 o 1990--2010.

Normalmente, seguimos el enfoque 2/4. Esta estrategia permite un "efecto" diferente para cada año (un "efecto fijo"). En cambio, el enfoque 1/3 supone que la diferencia esperada entre 1991 y 1992 es la misma que la diferencia esperada entre 2001 y 2002 (una "tendencia temporal lineal").

Podríamos preferir la tendencia temporal lineal si no tenemos muchas observaciones (sólo tenemos que estimar una pendiente, en lugar de 20 coeficientes de efectos fijos), pero eso no parece un problema para usted.

Podríamos ir más allá del modelo de tendencia temporal lineal y permitir que cada sitio tenga su propia tendencia temporal lineal utilizando el enfoque 1/3 con un efecto aleatorio en la variable temporal. Sin embargo, creo que los efectos fijos son más fáciles de trabajar y generalmente los prefiero. (Nota: hay algunos casos en los que los efectos fijos no pueden utilizarse junto con otras variables en su modelo, en cuyo caso yo utilizaría efectos aleatorios. Esto no parece ser un problema para usted).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X