13 votos

Datos longitudinales: series de tiempo, de medidas repetidas, o algo más?

En la llanura inglés: Tengo una regresión múltiple o ANOVA modelo, pero la variable de respuesta para cada individuo es un curvilíneo en función del tiempo.

  • ¿Cómo puedo saber que del lado derecho variables son responsables de importantes diferencias en las formas o vertical de los desplazamientos de las curvas?
  • Es este un momento de la serie problema, de medidas repetidas problema, o algo completamente distinto?
  • ¿Cuáles son las mejores prácticas para el análisis de estos datos (de preferencia en R, pero estoy abierto a que el uso de otros software)?

En términos más precisos: Digamos que tengo un modelo de $y_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_k$ pero $y_{ijk}$ es en realidad una serie de datos de los puntos de recogida de la misma persona $k$ en el tiempo de muchos de los puntos de $t$, que se registró como una variable numérica. El trazado de los datos muestra que, para cada individuo $y_{ijkt}$ es una ecuación cuadrática o función cíclica del tiempo, cuyo desplazamiento vertical, la forma o la frecuencia (en el ciclo de caso) podría significativamente dependen de las covariables. Las covariables no cambian en el tiempo, es decir, un individuo tiene una constante el peso del cuerpo o grupo de tratamiento para la duración del período de recolección de datos.

Hasta ahora he probado los siguientes R enfoques:

  1. Manova

    Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); 
    

    ...donde YT es una matriz cuyas columnas son los puntos en el tiempo, 10 de ellos en este ejemplo, pero mucho más en los datos reales.

    Problema: esto trata el tiempo como un factor, pero los puntos de tiempo de no coincidan exactamente para cada individuo. Además, hay muchos de ellos relativos al tamaño de la muestra para el modelo obtiene saturado. Parece que la forma de la respuesta de la variable a lo largo del tiempo se ignora.

  2. Modelo mixto (como en Pinheiro y Bates, Modelos de Efectos Mixtos en S y S-Plus)

    lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, 
        random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML')
    

    ...donde ID es un factor que agrupa los datos por individuo. En este ejemplo la respuesta es cíclico a lo largo del tiempo, pero no podía ser cuadrática términos o de otras funciones del tiempo.

    Problema: no estoy seguro de si cada vez que término es necesario (sobre todo para cuadrática términos) y que son afectados por el cual las covariables.

    • Es stepAIC() un buen método para la selección de ellos?
    • Si no retire un tiempo-dependiente plazo, esto también quitar de la random argumento?
    • Lo que si puedo también utilizar una función de autocorrelación (como corEXP()) que tiene una fórmula en la correlation argumento, debo hacer que la fórmula para corEXP() de la misma como la en random o sólo ~1|ID?
    • El nlme paquete es raramente mencionado en el contexto de series de tiempo fuera de Pinheiro y Bates... es que no se considera adecuado para este problema?
  3. El ajuste de una ecuación cuadrática o trigonométricas modelo para cada individuo y, a continuación, utilizando cada coeficiente como una variable de respuesta para la regresión múltiple o ANOVA.

    Problema: la corrección de comparación Múltiple necesario. No puedo pensar en ningún otro de los problemas que se me hace sospechoso que estoy con vistas a algo.

  4. Como se había sugerido en este sitio (¿Cuál es el término para una serie de tiempo de regresión tener más de un predictor?), hay ARIMAX y la función de transferencia / dinámica de los modelos de regresión.

    Problema: ARMA basada en los modelos de asumir discretos veces, ¿no? Como para la dinámica de la regresión, oí hablar de él por primera vez hoy, pero antes de profundizar en otro nuevo método que podría no filtra hacia fuera, después de todo, pensé que sería prudente preguntar a las personas que han hecho esto antes de asesoramiento.

5voto

Zolomon Puntos 250

Como Jeromy Anglim dijo, sería de gran ayuda para saber el número de puntos de tiempo que usted tiene para cada individuo; como usted dijo "muchos" me atrevo a que el análisis funcional puede ser una alternativa viable. Usted puede ser que desee comprobar el paquete de R fda y mirar el libro por Ramsay y Silverman.

3voto

f1r3br4nd Puntos 762

Dado que originalmente plantear la pregunta, he llegado a la conclusión de que la mezcla de modelos de efectos con temas como el azar factor de bloqueo son la solución práctica a este problema, es decir, la opción #2 en mi post original. Si el random argumento a lme se establece en ~1|ID (donde ID identifica las observaciones provenientes de la misma sujeto de prueba), a continuación, un azar interceptar modelo está equipado. Si se establece a ~TIME|ID , a continuación, un azar de la pendiente y la intersección con el modelo está equipado. Cualquier lado derecho de la fórmula que contiene las variables que varían dentro de un mismo individuo puede ser colocado entre el ~ y |ID, pero demasiado complicadas fórmulas resultará en un modelo saturado y/o varios errores numéricos. Por lo tanto, se puede utilizar una prueba de razón de verosimilitud (anova(myModel, update(myModel,random=~TIME|ID))) para comparar un azar interceptar modelo al azar a una pendiente y la intersección modelo u otro candidato modelos de efectos aleatorios. Si la diferencia en el ajuste no es significativo, a continuación, seguir con el modelo más sencillo. Era demasiado para mí para ir en aleatorio funciones trigonométricas en mi post original.

La otra cuestión que se planteó fue uno de selección de modelo. Parece que la gente no le gusta el modelo de selección de cualquier tipo, pero nadie tiene alternativas prácticas. Si creen ciegamente el investigador que la recogida de datos acerca de lo que las variables explicativas son y no son relevantes, que a menudo serán la aceptación a ciegas de sus hipótesis no confirmadas. Si se toma en cuenta cada posible de bits de información, que a menudo terminan con un modelo saturado. Si arbitrariamente elegir un modelo en particular y variables porque son fáciles, que volverá a ser la aceptación de hipótesis no confirmadas, esta vez de su propia.

Así que, en resumen, para medidas repetidas es lme modelos seguido por el recorte de la vía MASS:::stepAIC o MuMIn:::dredge y/o nlme:::anova.lme hasta y a menos que alguien tenga una mejor idea.

Voy a dejar esta auto-respuesta para un tiempo antes de aceptar a ver si alguien tiene alguna refutaciones. Gracias por tu tiempo, y si estás leyendo esto porque usted tiene el mismo tipo de pregunta que tengo, buena suerte y bienvenido a semi-un territorio desconocido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X