He escrito un código de simulación en R para aprender sobre el comportamiento de un modelo logit de interceptos aleatorios bajo diversos grados de confusión. El escenario simulado es de tres puntos en el tiempo, dos grupos, sin interacción tiempo-grupo (todavía no, de todos modos) y una única variable continua que puede actuar como un factor de confusión de la asociación entre la variable de grupo y el resultado dicotómico.
Se podría pensar en términos de rural frente a urbano (grupos) con el resultado de poseer una camioneta (resultado) y el factor de confusión es la edad. O algo parecido. En mi simulación, tanto la edad como el medio rural/urbano estarían asociados a la posesión de una camioneta y puedo variar las diferencias de edad entre el medio urbano y el rural.
Esta es mi pregunta. Estoy calculando algunas medidas de asociación, concretamente el cociente de riesgos para el resultado en cada uno de los tres momentos. El modelo ajusta por edad y ajusta una tendencia temporal lineal en el logit del resultado.
Tengo dos opciones:
1) Puedo calcular la probabilidad del resultado en cada momento dentro de cada réplica de la simulación, tomar la media de todas las réplicas y, a continuación, calcular la proporción de riesgo (y algunas otras cantidades) utilizando esas proporciones medias globales.
2) Puedo calcular el riesgo relativo (así como sus componentes "verdadero" y "sesgo" en presencia de factores de confusión) en cada réplica de simulación y, a continuación, promediar las medidas (cocientes de riesgo, etc.) en todas las réplicas.
Inicialmente lo codifiqué como Opción 1 y las medidas se ven bien. Pero ahora estoy pensando en pasar a tal vez el cálculo de percentiles de las medidas a través de las réplicas y que me dirige hacia la Opción 2.
¿Existe una forma estándar/habitual de agregar estos elementos en los estudios de simulación?