42 votos

Métricas de clasificación/evaluación para datos muy desequilibrados

Me ocupo de un problema de detección de fraudes (de tipo crediticio). Como tal, existe una relación muy desequilibrada entre las observaciones fraudulentas y las no fraudulentas.

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html proporciona una gran visión general de las diferentes métricas de clasificación. Precision and Recall o kappa ambos parecen ser una buena opción:

Una forma de justificar los resultados de estos clasificadores es compararlos con los de los clasificadores de referencia y demostrar que, efectivamente, son mejores que las predicciones del azar.

Según tengo entendido, kappa podría ser la mejor opción aquí, ya que azar se tiene en cuenta. En La kappa de Cohen en inglés Entiendo que kappa aborda el concepto de ganancia de información:

[...] una Precisión Observada del 80% es mucho menos impresionante con una Precisión Esperada del 75% frente a una Precisión Esperada del 50% [...]

Por lo tanto, mis preguntas serían:

  • ¿Es correcto suponer que kappa ¿es una métrica de clasificación más adecuada para este problema?
  • ¿El simple hecho de utilizar kappa ¿evitar los efectos negativos del desequilibrio en el algoritmo de clasificación? ¿Es el remuestreo o el aprendizaje basado en los costes (véase http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) sigue siendo necesario?

16voto

Onur Yıldırım Puntos 5566

Sí, tus suposiciones sobre Kappa parecen correctas. Kappa como métrica única y escalar es sobre todo una ventaja sobre otras métricas únicas y escalares como la precisión, que no reflejará el rendimiento de la predicción de las clases más pequeñas (ensombrecido por el rendimiento de cualquier clase mucho más grande). Kappa resuelve este problema de forma más elegante, como has señalado.

El uso de una métrica como Kappa para medir su rendimiento no aumentará necesariamente el ajuste de su modelo a los datos. Se podría medir el rendimiento de cualquier modelo utilizando una serie de métricas, pero la forma en que el modelo se ajusta a los datos se determina utilizando otros parámetros (por ejemplo, los hiperparámetros). Por lo tanto, puede utilizar, por ejemplo, Kappa para seleccionar el tipo de modelo y la hiperparametrización más adecuados entre las múltiples opciones para su problema muy desequilibrado, pero el simple cálculo de Kappa no cambiará la forma en que su modelo se ajusta a sus datos desequilibrados.

Para las diferentes métricas: además de Kappa y precisión/recuperación, también hay que tener en cuenta las tasas de verdaderos positivos y verdaderos negativos TPR/TNR, y las curvas ROC y el área bajo la curva AUC. La utilidad de estos parámetros para su problema dependerá principalmente de los detalles de su objetivo. Por ejemplo, la diferente información reflejada en TPR/TNR y precisión/recuperación: ¿su objetivo es tener una alta proporción de fraudes detectados como tales, y una alta proporción de transacciones legítimas detectadas como tales, y/o minimizar la proporción de falsas alarmas (que naturalmente obtendrá "en masa" con tales problemas) en todas las alarmas?

Para el muestreo ascendente/descendente: Creo que no hay una respuesta canónica a "si son necesarios". Son más bien una forma de adaptar su problema. Técnicamente: sí, puede utilizarlos, pero hágalo con cuidado, especialmente el muestreo ascendente (puede acabar creando muestras poco realistas sin darse cuenta), y tenga en cuenta que cambiar la frecuencia de las muestras de ambas clases a algo no realista "en la naturaleza" puede tener también efectos negativos en el rendimiento de la predicción. Al menos, el conjunto de pruebas final, que se mantiene, debería reflejar de nuevo la frecuencia de las muestras en la vida real. En resumen: He visto ambos casos en los que hacer y no hacer un muestreo ascendente o descendente dio lugar a mejores resultados finales, así que es algo que podría tener que probar (¡pero no manipule su(s) conjunto(s) de pruebas!).

16voto

Johnson Puntos 161

Además de la AUC y la kappa de Kohonen ya comentadas en las otras respuestas, también me gustaría añadir algunas métricas que he encontrado útiles para los datos desequilibrados. Ambas están relacionadas con precisión et Retirada del mercado . Porque al promediarlas se obtiene una métrica que pesa $TP$ s y ambos tipos de errores ( $FP$ et $FN$ ):

  • Puntuación de la F1 que es el media armónica de precisión et Retirada del mercado .
  • Medida G que es el media geométrica de precisión et Retirada del mercado . En comparación con la F1, me ha parecido un poco mejor para los datos desequilibrados.
  • Índice de Jaccard que se puede considerar como el $TP / (TP + FP + FN)$ . Esta es la métrica que mejor me ha funcionado.

Nota: En el caso de conjuntos de datos desequilibrados, es mejor que las métricas sean macro-promedio .

13voto

Adithya Holla Puntos 13

En el caso de conjuntos de datos desequilibrados, la métrica Average Precision es a veces una alternativa mejor que el AUROC. La puntuación AP es el área bajo la curva de precisión-recuerdo.

Aquí hay un discusión con algo de código (Python)

Aquí hay un papel .

Véase también la obra de Peter Flach Curvas de precisión-recogida-ganancia junto con un debate sobre las deficiencias de las curvas AP.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X