2 votos

Combinación de resultados de réplicas de simulación (modelos Logit de intercepción aleatoria con factores de confusión)

He escrito un código de simulación en R para aprender sobre el comportamiento de un modelo logit de interceptos aleatorios bajo diversos grados de confusión. El escenario simulado es de tres puntos en el tiempo, dos grupos, sin interacción tiempo-grupo (todavía no, de todos modos) y una única variable continua que puede actuar como un factor de confusión de la asociación entre la variable de grupo y el resultado dicotómico.

Se podría pensar en términos de rural frente a urbano (grupos) con el resultado de poseer una camioneta (resultado) y el factor de confusión es la edad. O algo parecido. En mi simulación, tanto la edad como el medio rural/urbano estarían asociados a la posesión de una camioneta y puedo variar las diferencias de edad entre el medio urbano y el rural.

Esta es mi pregunta. Estoy calculando algunas medidas de asociación, concretamente el cociente de riesgos para el resultado en cada uno de los tres momentos. El modelo ajusta por edad y ajusta una tendencia temporal lineal en el logit del resultado.

Tengo dos opciones:

1) Puedo calcular la probabilidad del resultado en cada momento dentro de cada réplica de la simulación, tomar la media de todas las réplicas y, a continuación, calcular la proporción de riesgo (y algunas otras cantidades) utilizando esas proporciones medias globales.

2) Puedo calcular el riesgo relativo (así como sus componentes "verdadero" y "sesgo" en presencia de factores de confusión) en cada réplica de simulación y, a continuación, promediar las medidas (cocientes de riesgo, etc.) en todas las réplicas.

Inicialmente lo codifiqué como Opción 1 y las medidas se ven bien. Pero ahora estoy pensando en pasar a tal vez el cálculo de percentiles de las medidas a través de las réplicas y que me dirige hacia la Opción 2.

¿Existe una forma estándar/habitual de agregar estos elementos en los estudios de simulación?

1voto

Noah Puntos 85

El sesgo se define como la diferencia entre el valor esperado de un estimador y su valor real. En los estudios de simulación, estimamos este valor esperado tomando la media del parámetro de interés en todas las réplicas de simulación, que es lo que usted ha descrito con la opción 2, y que es la práctica habitual en los estudios de simulación.

El resultado de la opción 1 estima el cociente de los sesgos multiplicativos del numerador y el denominador del cociente de riesgos, no el sesgo del cociente de riesgos. Un problema de este enfoque es que si tanto el numerador como el denominador están sesgados por el mismo factor, esto no se reflejará en la estimación del sesgo. Nunca he visto a nadie utilizar este enfoque y no lo recomiendo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X