Estoy estimando un modelo de riesgos proporcionales de Cox con y sin variables explicativas. Sin variables explicativas, la tasa de riesgo es simplemente la proporción de todos los individuos que fallaron en el momento $t$ de todos los individuos que duraron al menos un tiempo $t$ .
Después de estimar el modelo con covariables, calculo el peligro previsto para cada observación de la muestra utilizada para ajustar el modelo multiplicando el peligro de referencia por $\exp(z_i'\beta)$ . A continuación, hago una media del riesgo de base previsto para cada unidad de tiempo entre todos los individuos que aún no han fracasado en ese momento.
Mi problema es que la tasa de riesgo promediada es siempre mayor que la tasa de riesgo del modelo sin ninguna variable explicativa. Las variables explicativas no varían con el tiempo y la muestra utilizada para estimar ambos modelos es exactamente la misma. Véase la figura siguiente como ejemplo:
Mis preguntas son:
1) ¿Es esto posible o estoy haciendo algo mal? No entiendo cómo la tasa de riesgo media de todos los individuos es mayor que la tasa de riesgo del modelo sin variables en cada momento.
2) ¿Cuál debería ser la relación entre las medias de las dos estimaciones de riesgo? Debería ser:
$\frac{\sum_t \sum_i \text{Hazard Rate w/ explanatory variables for observation i at time t}}{\sum_t \text{Number of Observations at time t}} = \frac{\sum_t \text{Hazard rate without explanatory variables at time t}\times \text{Number of observations at time t}}{\sum_t\text{Number of observations at time t}}$