Estoy intentando utilizar el aprendizaje automático para modelizar el riesgo de infecciones relacionadas con la atención sanitaria (HAI) en pacientes de varios hospitales. Tengo variables a nivel de paciente, de sala y de hospital.
En particular, algunas variables a nivel de hospital también están presentes a nivel de sala. Por ejemplo, los mililitros de gel de manos con alcohol utilizados por paciente y día se recogen tanto en cada sala como para todo el hospital. Por supuesto, esas dos variables pueden estar correlacionadas, pero de forma compleja.
¿Debo incluir ambas en el modelo o sólo la más próxima (es decir, a nivel de pabellón), ya que el efecto de la variable hospital está en realidad mediado por la del pabellón?