1 votos

El mismo algoritmo dio métricas muy diferentes en conjuntos de datos similares

Soy bastante nuevo en ML y todavía estoy en la fase de aprendizaje.

Utilicé el Random Forest (hiper-sintonizando los parámetros) para un problema de clasificación binaria en un conjunto de datos (conjunto de datos A). Obtuve una puntuación F1 de 0,78. A continuación, obtuve un segundo conjunto de datos (conjunto de datos B) que era muy similar al conjunto de datos (A). Por similar me refiero a las mismas variables y a la distribución de las clases en la variable objetivo.

No entiendo por qué hay una diferencia tan marcada en las puntuaciones f1 de los dos conjuntos de datos. Ambos conjuntos de datos (A y B) son muy similares entre sí y he entrenado modelos distintos en ambos.

¿Alguna aportación sobre cómo abordar esta cuestión?

0voto

EscapeCode Puntos 11

Lo primero que haría es comprobar la precisión de referencia de los conjuntos de datos con los que está trabajando, observando los promedios de su variable dependiente en cada conjunto de datos. También es posible que, a pesar de tener las mismas variables y distribuciones similares de esas variables, las relaciones entre las variables en cada conjunto de datos no sean similares por cualquier razón, como un muestreo no aleatorio entre los conjuntos de datos, por ejemplo.

Otra cosa que podrías intentar es probar otros modelos en los conjuntos de datos. Una cosa rápida que podría hacer es ejecutar un logit en cada conjunto de datos y ver si esta marcada diferencia de rendimiento existe también en otros modelos, lo que proporcionaría más pruebas de que es un problema de datos y no un problema de definición del modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X