En la llanura inglés: Tengo una regresión múltiple o ANOVA modelo, pero la variable de respuesta para cada individuo es un curvilíneo en función del tiempo.
- ¿Cómo puedo saber que del lado derecho variables son responsables de importantes diferencias en las formas o vertical de los desplazamientos de las curvas?
- Es este un momento de la serie problema, de medidas repetidas problema, o algo completamente distinto?
- ¿Cuáles son las mejores prácticas para el análisis de estos datos (de preferencia en
R
, pero estoy abierto a que el uso de otros software)?
En términos más precisos: Digamos que tengo un modelo de $y_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_k$ pero $y_{ijk}$ es en realidad una serie de datos de los puntos de recogida de la misma persona $k$ en el tiempo de muchos de los puntos de $t$, que se registró como una variable numérica. El trazado de los datos muestra que, para cada individuo $y_{ijkt}$ es una ecuación cuadrática o función cíclica del tiempo, cuyo desplazamiento vertical, la forma o la frecuencia (en el ciclo de caso) podría significativamente dependen de las covariables. Las covariables no cambian en el tiempo, es decir, un individuo tiene una constante el peso del cuerpo o grupo de tratamiento para la duración del período de recolección de datos.
Hasta ahora he probado los siguientes R
enfoques:
-
Manova
Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME);
...donde
YT
es una matriz cuyas columnas son los puntos en el tiempo, 10 de ellos en este ejemplo, pero mucho más en los datos reales.Problema: esto trata el tiempo como un factor, pero los puntos de tiempo de no coincidan exactamente para cada individuo. Además, hay muchos de ellos relativos al tamaño de la muestra para el modelo obtiene saturado. Parece que la forma de la respuesta de la variable a lo largo del tiempo se ignora.
-
Modelo mixto (como en Pinheiro y Bates, Modelos de Efectos Mixtos en S y S-Plus)
lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML')
...donde
ID
es un factor que agrupa los datos por individuo. En este ejemplo la respuesta es cíclico a lo largo del tiempo, pero no podía ser cuadrática términos o de otras funciones del tiempo.Problema: no estoy seguro de si cada vez que término es necesario (sobre todo para cuadrática términos) y que son afectados por el cual las covariables.
- Es
stepAIC()
un buen método para la selección de ellos? - Si no retire un tiempo-dependiente plazo, esto también quitar de la
random
argumento? - Lo que si puedo también utilizar una función de autocorrelación (como
corEXP()
) que tiene una fórmula en lacorrelation
argumento, debo hacer que la fórmula paracorEXP()
de la misma como la enrandom
o sólo~1|ID
? - El
nlme
paquete es raramente mencionado en el contexto de series de tiempo fuera de Pinheiro y Bates... es que no se considera adecuado para este problema?
- Es
-
El ajuste de una ecuación cuadrática o trigonométricas modelo para cada individuo y, a continuación, utilizando cada coeficiente como una variable de respuesta para la regresión múltiple o ANOVA.
Problema: la corrección de comparación Múltiple necesario. No puedo pensar en ningún otro de los problemas que se me hace sospechoso que estoy con vistas a algo.
-
Como se había sugerido en este sitio (¿Cuál es el término para una serie de tiempo de regresión tener más de un predictor?), hay ARIMAX y la función de transferencia / dinámica de los modelos de regresión.
Problema: ARMA basada en los modelos de asumir discretos veces, ¿no? Como para la dinámica de la regresión, oí hablar de él por primera vez hoy, pero antes de profundizar en otro nuevo método que podría no filtra hacia fuera, después de todo, pensé que sería prudente preguntar a las personas que han hecho esto antes de asesoramiento.