1 votos

Términos cuadráticos en glmer

Estoy buscando algunas referencias que expliquen paso a paso cómo modelar la regresión logística a datos longitudinales (medidas repetidas) en R. Sé que puedo utilizar el lme4 y la función glmer para modelos lineales mixtos generalizados, y lo uso para añadir efectos aleatorios. Pero he leído algunas cosas y a veces la gente añade términos cuadráticos y multiplica y a veces no. ¿Puede alguien aclararme esto?

Por ejemplo, en el libro "Applied Longitudinal Analysis by Fitzmaurice", en el capítulo 14.7, modela la regresión logística para un conjunto de datos como éste:

model1 <- glmer(y ~ time + time2 + trt.time + trt.time2 + (1 | id), family=binomial, nAGQ=50, na.action=na.omit)

donde:

  • $\texttt{time2 <- time}^2$

  • $\texttt{trt.time <- trt }\times\texttt{ time}$

  • $\texttt{trt.time2 <- trt } \times\texttt{ time2}$

¿Por qué no utiliza simplemente model1 <- glmer(y ~ time + trt+ (1 | id), family=binomial, nAGQ=50, na.action=na.omit) ? He ejecutado este último modelo en R y el AIC y el BIC son básicamente los mismos.

Este es el tipo de preguntas que tengo en relación con el código R sobre este asunto. No encuentro mucha literatura con R sobre regresión logística para datos longitudinales, y todo esto es muy confuso. ¿Puede alguien explicarme cuándo usar términos cuadráticos, o multiplicarlos/añadirlos? O recomendarme una referencia.

También encontré este tema pero no sirvió de mucho.

5voto

user219012 Puntos 1

La razón para incluir términos polinómicos de una variable (por ejemplo, el tiempo) en su modelo es cuando la relación entre la media (transformada) de su resultado y esta variable no es lineal. En su caso particular, y dado que ajusta una regresión logística de efectos mixtos, postula que las probabilidades logarítmicas de su resultado dicotómico/binomial están relacionadas de forma no lineal con la variable de tiempo.

La cuestión de si es necesario incluir ese término en el modelo depende del conjunto de datos. Es decir, para algunos resultados, una simple relación lineal entre las probabilidades logarítmicas y el tiempo puede ser adecuada, mientras que, en otros conjuntos de datos, la relación puede ser no lineal.

Incluir la interacción con el tratamiento en el modelo significa que las probabilidades logarítmicas para los diferentes grupos de tratamiento tienen diferentes perfiles no lineales a lo largo del tiempo.

Por último, para modelar relaciones no lineales los splines son mejores que los polinomios.

1voto

user164061 Puntos 281

Términos cuadráticos

a veces se suman términos cuadráticos y se multiplican y a veces no

Cambiando en el tiempo

El valor que se está modelando puede ser cambiando en el tiempo . Vea, por ejemplo, a continuación una visualización de sus datos ( disponible a través de la página del autor del libro que enlaza https://content.sph.harvard.edu/fitzmaur/ala2e/ y https://content.sph.harvard.edu/fitzmaur/ala2e/R_sect_14_7.html ) :

fractions

Regresión logística típica

Con una regresión logística simple típica que sólo incluye una función lineal del tiempo (nótese que esta función lineal está envuelta dentro de una función de enlace no lineal) la fracción/probabilidad del resultado binario se modela como una curva logística :

$$p = \underbrace{ \text{logistic}(\underbrace{\beta_0 + \beta_1 \times time}_{\text{linear part}})}_{\text{non-linear function}} = \frac{1}{1+\text{exp}(-\beta_0 - \beta_1 \times time)}$$

un ajuste a los datos:

simple linear function

Más varianza en función del tiempo añadiendo un término cuadrático

En el ejemplo anterior, la curva logística se ajusta mediante estiramiento y desplazamiento. Añadiendo un término cuadrático, el cambio en el tiempo puede expresarse con más flexibilidad. Esto mejorará el ajuste.

with quadratic term

El efecto puede ser un poco difícil de ver porque ambas curvas no son lineales (porque están envueltas en la función de enlace). Sin embargo, si representamos las probabilidades logarítmicas, puede resultar más claro:

log odds

Multiplicar con otros factores

se multiplican y a veces no

Interacciones

Los datos específicos corresponden a dos tipos diferentes de tratamiento (dos dosis diferentes). Cuando se trazan las fracciones por separado para los dos tratamientos diferentes, se puede ver que en función del tiempo hay una diferencia para la dependencia en función del tiempo.

with treatment effect

Nótese que la multiplicación trt * tiempo se realiza con una variable trt que tiene el valor 0 o 1. A veces estos modelos utilizan términos cruzados con variables que tienen múltiples valores, en cuyo caso la multiplicación debe hacerse para cada variable por separado (véase dumy-codificación ).


Cuándo utilizar

¿Alguien puede explicarme cuándo utilizar los términos cuadráticos, o multiplicarlos/sumarlos? O recomendarme una referencia.

El libro "Applied Longitudinal Analysis by Fitzmaurice", al que se refiere, lo explica. Ver en el ejemplo de código R donde se comparan diferentes modelos.

el AIC y el BIC son básicamente lo mismo

AIC, BIC y F-test son varias pruebas para compararlo. En el ejemplo del libro parece que utilizan una prueba F. Sí, el AIC y el BIC pueden ser básicamente iguales, pero el modelo cuadrático proporciona una mejor estimación (el AIC y el BIC parecen iguales porque los valores son ambos muy grandes, pero la diferencia en la probabilidad logarítmica, alrededor de 6, es relativamente grande).

Deberías estar mucho cuidado con la interpretación . Estas pruebas pueden dar valores p pequeños, lo que significa que se pueden predecir los valores de los cuatro individual veces muy bien, pero el modelo puede seguir estando muy sesgado para otros valores (y la interpolación y la extrapolación pueden ser completamente/extremadamente erróneas).

En este caso, con sólo cuatro puntos de tiempo, yo personalmente no modelar la fracción de amenorrea en función del tiempo. O al menos no aplicaría una función más compleja que una función lineal, y si quisiera incluir más flexibilidad como función del tiempo entonces convertiría la variable tiempo en una variable categórica. El uso de una función cuadrática para sólo cuatro puntos de tiempo es un poco sin sentido . Creará un mejor ajuste, pero sólo es un ajuste excesivo y no se debe interpretar el modelo como correcto de manera que se pueda aplicar la interpolación o la extrapolación.


En lo anterior he utilizado el glm en lugar de la función glmer porque el ajuste por glmer es menos intuitivo (no se superpondrá con la fracción de amenorrea porque el desplazamiento aleatorio para el individuo diferente, que puede tener uno o más valores NA, cambiará mucho el ajuste de manera que las medias predichas no se superpondrán mucho con las medias observadas)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X