Esta es una pregunta que me ha estado molestando porque veo esta práctica realizada en muchos documentos médicos. El escenario es el siguiente: se crea un modelo de pronóstico a partir de una población general de pacientes con cáncer de mama con criterios de exclusión razonables, como la ausencia de cáncer previo. Tus variables acaban siendo la edad, el estado del receptor HER2 y el estado del receptor de estrógeno. Lo que veo en muchos artículos es que los autores validan el modelo, pero luego también lo prueban en múltiples grupos de pacientes con características muy específicas. Por ejemplo, prueban el rendimiento sólo en pacientes HER2+ y ER+, o sólo en pacientes jóvenes en estadio III. Luego dicen cosas como: "el modelo funcionó bien en pacientes ER+/HER2- pero no en pacientes HER2+ en general".
Algo en mi interior me dice que no es una buena práctica entrenar un modelo en una amplia población de pacientes y luego probarlo en múltiples subconjuntos diferentes de pacientes (por ejemplo, sólo los pacientes en estadio III, o sólo los pacientes <50 años que son negros). No soy estadístico de formación, así que no tengo pruebas de ello. ¿Alguien sabe si hay problemas de sesgo con esta práctica?