Soy bastante nuevo en ML y todavía estoy en la fase de aprendizaje.
Utilicé el Random Forest (hiper-sintonizando los parámetros) para un problema de clasificación binaria en un conjunto de datos (conjunto de datos A). Obtuve una puntuación F1 de 0,78. A continuación, obtuve un segundo conjunto de datos (conjunto de datos B) que era muy similar al conjunto de datos (A). Por similar me refiero a las mismas variables y a la distribución de las clases en la variable objetivo.
No entiendo por qué hay una diferencia tan marcada en las puntuaciones f1 de los dos conjuntos de datos. Ambos conjuntos de datos (A y B) son muy similares entre sí y he entrenado modelos distintos en ambos.
¿Alguna aportación sobre cómo abordar esta cuestión?