34 votos

Modelización de datos longitudinales en los que el efecto del tiempo varía en la forma funcional entre individuos

Contexto :

Imagine que tiene un estudio longitudinal que mide una variable dependiente (VD) una vez a la semana durante 20 semanas en 200 participantes. Aunque me interesa en general, las VD típicas en las que estoy pensando incluyen el rendimiento laboral tras la contratación o diversas medidas de bienestar tras una intervención de psicología clínica.

Sé que se puede utilizar la modelización multinivel para modelizar la relación entre el tiempo y la VD. También puede permitir que los coeficientes (por ejemplo, los interceptos, las pendientes, etc.) varíen entre los individuos y estimar los valores particulares de los participantes. Pero ¿qué pasa si al inspeccionar visualmente los datos se encuentra que la relación entre el tiempo y la VD es cualquiera de las siguientes?

  • diferentes en la forma funcional (tal vez algunos son lineales y otros son exponenciales o algunos tienen una discontinuidad)
  • diferentes en la varianza de los errores (algunos individuos son más volátiles de un momento a otro)

Preguntas :

  • ¿Cuál sería una buena forma de enfocar la modelización de datos como ésta?
  • En concreto, ¿qué enfoques son buenos para identificar los distintos tipos de relaciones y clasificar a los individuos en función de su tipo?
  • ¿Qué implementaciones existen en R para estos análisis?
  • ¿Existen referencias sobre cómo hacerlo: libro de texto o aplicación real?

21voto

DavLink Puntos 101

Le sugiero que se fije en las tres direcciones siguientes:

  • agrupación longitudinal : esto no está supervisado, pero se utiliza el enfoque de k-means basándose en el criterio de Calinsky para evaluar la calidad de la partición (paquete kml y las referencias incluidas en la ayuda en línea); s
  • algún tipo de curva de crecimiento latente de la heteroscedasticidad: lo mejor sería mirar las extensas referencias en torno a MPlus software, especialmente las preguntas frecuentes y el correo. También he oído hablar del modelo heteroscedástico multiplicativo de efectos aleatorios (intente buscar en Google esas palabras clave). Encuentro estos trabajos ( 1 , 2 ) interesante, pero no los he mirado en detalle. Actualizaré con referencias sobre la evaluación neuropsicológica una vez de vuelta a mi oficina.
  • PCA funcional ( fpca paquete) pero puede valer la pena mirar análisis de datos funcionales

Otras referencias (sólo hojeadas sobre la marcha):

8voto

Omar Kooheji Puntos 384

Recomendaría echar un vistazo a un par de artículos de Heping Zhang que utilizan splines adaptativos para modelar datos longitudinales:

Además, véase el MASAL página de software que incluye un paquete R.

6voto

Judioo Puntos 625

Me parece que Modelos de mezcla de crecimiento podría tener potencial para permitirle examinar su varianza de errores. ( PDF aquí). (No estoy seguro de lo que son los modelos heteroscedásticos multiplicativos, pero definitivamente tendré que comprobarlo).

Los modelos de trayectoria basados en grupos latentes se han hecho muy populares últimamente en criminología. Pero mucha gente simplemente da por sentado que los grupos realmente existen, y algunos investigación astuta ha señalado que se pueden encontrar grupos incluso en datos aleatorios. También hay que tener en cuenta que el enfoque de modelización basado en grupos de Nagin no permite evaluar su error (y honestamente nunca he visto un modelo que se parezca a una discontinuidad).

Aunque sería difícil con 20 puntos de tiempo, para fines exploratorios podría ser útil crear una heurística simple para identificar patrones (por ejemplo, siempre bajo o siempre alto, coeficiente de variación). Estoy imaginando sparklines en una hoja de cálculo o gráficos de coordenadas paralelas, pero dudo que sean útiles (sinceramente, nunca he visto un gráfico de coordenadas paralelas que sea muy esclarecedor).

Buena suerte

6voto

Eric Davis Puntos 1542

Cuatro años después de hacer esta pregunta, he aprendido algunas cosas, así que tal vez deba añadir algunas ideas.

Creo que la modelización jerárquica bayesiana ofrece un enfoque flexible para este problema.

Software : Herramientas como jags, stan, WinBugs, etc., potencialmente combinadas con sus respectivos paquetes de interfaz de R (por ejemplo, rjags, rstan) facilitan la especificación de tales modelos.

Error variable dentro de la persona: Los modelos bayesianos facilitan la especificación de la varianza del error dentro de la persona como un factor aleatorio que varía entre las personas.

Por ejemplo, podría modelar las puntuaciones $y$ sobre los participantes $i=1,..., n$ en los puntos de tiempo $j=1,...J$ como

$$y_{ij}\sim N(\mu_i, \sigma^2_i)$$ $$\mu_i = \gamma$$ $$\gamma \sim N(\mu_\gamma, \sigma^2_\gamma)$$ $$\sigma_i \sim \rm{Gamma}(\alpha, \beta)$$

Así, la desviación estándar de cada persona podría modelarse como una distribución gamma. He comprobado que este es un parámetro importante en muchos ámbitos psicológicos en los que las personas varían en cuanto a su variación en el tiempo.

Clases latentes de curvas: Todavía no he explorado mucho esta idea, pero es relativamente sencillo especificar dos o más funciones generadoras de datos posibles para cada individuo y luego dejar que el modelo bayesiano elija el modelo más probable para un individuo determinado. Así, normalmente se obtendrían probabilidades posteriores para cada individuo respecto a la forma funcional que describe los datos de los individuos.

Como esbozo de idea para un modelo, podría tener algo como lo siguiente:

$$y_{ij} \sim N(\mu_{ij}, \sigma^2)$$ $$\mu_{ij} = \gamma_i \lambda_{ij}^{(1)} + (1 - \gamma_i) \lambda_{ij}^{(2)}$$ $$\lambda_{ij}^{(1)} = \theta^{(1)}_{1i} + \theta^{(1)}_{2i} \exp(-\theta^{(1)}_{3i}) $$ $$\lambda_{ij}^{(2)} =\theta^{(2)}_{1i} + \theta^{(2)}_{2i} x_{ij} + \theta^{(2)}_{3i} x^2_{ij}$$ $$\gamma_i = \rm{Bernoulli}(\pi_i)$$

Donde $x_{ij}$ es el tiempo y $\lambda_{ij}^{(1)}$ representa los valores esperados para un modelo exponencial de tres parámetros y $\lambda_{ij}^{(2)}$ representa los valores esperados para un modelo cuadrático. $\pi_i$ representa la probabilidad de que el modelo elija $\lambda_{ij}^{(1)}$ .

3voto

jt. Puntos 146

John Fox tiene un estupendo apéndice disponible en línea en el que utiliza nlme para examinar los datos longitudinales. Puede ser útil para usted:

http://cran.r-project.org/doc/contrib/Fox-Companion/appendix-mixed-models.pdf

Hay un montón de cosas buenas allí (¡y los libros de Fox son en general bastante buenos!).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X