Estoy trabajando con un conjunto de datos multi-clase desequilibrado. Intento ajustar los parámetros de un DecisionTreeClassifier
, RandomForestClassifier
y un GradientBoostingClassifier
utilizando una búsqueda aleatoria y una búsqueda bayesiana.
Por ahora sólo he utilizado accuracy
para la puntuación, que no es realmente aplicable para evaluar el rendimiento de mis modelos (cosa que no estoy haciendo). ¿Tampoco es adecuado para el ajuste de parámetros?
He descubierto que, por ejemplo recall_micro
produce los mismos resultados que accuracy
. Esto debería ser igual para otras métricas como f1_micro
.
Así que mi pregunta es : ¿Es pertinente la puntuación? ¿Puede una métrica diferente conducir a resultados diferentes? En caso afirmativo, ¿qué métrica debería utilizar?