2 votos

Ajuste de hiperparámetros en problemas de clasificación multiclase: ¿es relevante la métrica de puntuación?

Estoy trabajando con un conjunto de datos multi-clase desequilibrado. Intento ajustar los parámetros de un DecisionTreeClassifier , RandomForestClassifier y un GradientBoostingClassifier utilizando una búsqueda aleatoria y una búsqueda bayesiana.

Por ahora sólo he utilizado accuracy para la puntuación, que no es realmente aplicable para evaluar el rendimiento de mis modelos (cosa que no estoy haciendo). ¿Tampoco es adecuado para el ajuste de parámetros?

He descubierto que, por ejemplo recall_micro produce los mismos resultados que accuracy . Esto debería ser igual para otras métricas como f1_micro .

Así que mi pregunta es : ¿Es pertinente la puntuación? ¿Puede una métrica diferente conducir a resultados diferentes? En caso afirmativo, ¿qué métrica debería utilizar?

3voto

kathystehl Puntos 124

Sí, la puntuación es relevante.

El ajuste de hiperparámetros se realiza clasificando los conjuntos de hiperparámetros y eligiendo el mejor. El mejor se identifica mediante una métrica de puntuación. Lo ideal sería que la métrica de puntuación fuera idéntica a la métrica de evaluación final.

Para un conjunto de datos multiclase desequilibrado, recomendaría utilizar la precisión media por clase (media de la diagonal de la matriz de confusión normalizada), ya que no está sesgada hacia la clase con el mayor número de muestras.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X