Términos cuadráticos
a veces se suman términos cuadráticos y se multiplican y a veces no
Cambiando en el tiempo
El valor que se está modelando puede ser cambiando en el tiempo . Vea, por ejemplo, a continuación una visualización de sus datos ( disponible a través de la página del autor del libro que enlaza https://content.sph.harvard.edu/fitzmaur/ala2e/ y https://content.sph.harvard.edu/fitzmaur/ala2e/R_sect_14_7.html ) :
Regresión logística típica
Con una regresión logística simple típica que sólo incluye una función lineal del tiempo (nótese que esta función lineal está envuelta dentro de una función de enlace no lineal) la fracción/probabilidad del resultado binario se modela como una curva logística :
$$p = \underbrace{ \text{logistic}(\underbrace{\beta_0 + \beta_1 \times time}_{\text{linear part}})}_{\text{non-linear function}} = \frac{1}{1+\text{exp}(-\beta_0 - \beta_1 \times time)}$$
un ajuste a los datos:
Más varianza en función del tiempo añadiendo un término cuadrático
En el ejemplo anterior, la curva logística se ajusta mediante estiramiento y desplazamiento. Añadiendo un término cuadrático, el cambio en el tiempo puede expresarse con más flexibilidad. Esto mejorará el ajuste.
El efecto puede ser un poco difícil de ver porque ambas curvas no son lineales (porque están envueltas en la función de enlace). Sin embargo, si representamos las probabilidades logarítmicas, puede resultar más claro:
Multiplicar con otros factores
se multiplican y a veces no
Los datos específicos corresponden a dos tipos diferentes de tratamiento (dos dosis diferentes). Cuando se trazan las fracciones por separado para los dos tratamientos diferentes, se puede ver que en función del tiempo hay una diferencia para la dependencia en función del tiempo.
Nótese que la multiplicación trt * tiempo se realiza con una variable trt que tiene el valor 0 o 1. A veces estos modelos utilizan términos cruzados con variables que tienen múltiples valores, en cuyo caso la multiplicación debe hacerse para cada variable por separado (véase dumy-codificación ).
Cuándo utilizar
¿Alguien puede explicarme cuándo utilizar los términos cuadráticos, o multiplicarlos/sumarlos? O recomendarme una referencia.
El libro "Applied Longitudinal Analysis by Fitzmaurice", al que se refiere, lo explica. Ver en el ejemplo de código R donde se comparan diferentes modelos.
el AIC y el BIC son básicamente lo mismo
AIC, BIC y F-test son varias pruebas para compararlo. En el ejemplo del libro parece que utilizan una prueba F. Sí, el AIC y el BIC pueden ser básicamente iguales, pero el modelo cuadrático proporciona una mejor estimación (el AIC y el BIC parecen iguales porque los valores son ambos muy grandes, pero la diferencia en la probabilidad logarítmica, alrededor de 6, es relativamente grande).
Deberías estar mucho cuidado con la interpretación . Estas pruebas pueden dar valores p pequeños, lo que significa que se pueden predecir los valores de los cuatro individual veces muy bien, pero el modelo puede seguir estando muy sesgado para otros valores (y la interpolación y la extrapolación pueden ser completamente/extremadamente erróneas).
En este caso, con sólo cuatro puntos de tiempo, yo personalmente no modelar la fracción de amenorrea en función del tiempo. O al menos no aplicaría una función más compleja que una función lineal, y si quisiera incluir más flexibilidad como función del tiempo entonces convertiría la variable tiempo en una variable categórica. El uso de una función cuadrática para sólo cuatro puntos de tiempo es un poco sin sentido . Creará un mejor ajuste, pero sólo es un ajuste excesivo y no se debe interpretar el modelo como correcto de manera que se pueda aplicar la interpolación o la extrapolación.
En lo anterior he utilizado el glm
en lugar de la función glmer
porque el ajuste por glmer es menos intuitivo (no se superpondrá con la fracción de amenorrea porque el desplazamiento aleatorio para el individuo diferente, que puede tener uno o más valores NA, cambiará mucho el ajuste de manera que las medias predichas no se superpondrán mucho con las medias observadas)