Me ocupo de un problema de detección de fraudes (de tipo crediticio). Como tal, existe una relación muy desequilibrada entre las observaciones fraudulentas y las no fraudulentas.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html proporciona una gran visión general de las diferentes métricas de clasificación. Precision and Recall
o kappa
ambos parecen ser una buena opción:
Una forma de justificar los resultados de estos clasificadores es compararlos con los de los clasificadores de referencia y demostrar que, efectivamente, son mejores que las predicciones del azar.
Según tengo entendido, kappa
podría ser la mejor opción aquí, ya que azar se tiene en cuenta. En La kappa de Cohen en inglés Entiendo que kappa
aborda el concepto de ganancia de información:
[...] una Precisión Observada del 80% es mucho menos impresionante con una Precisión Esperada del 75% frente a una Precisión Esperada del 50% [...]
Por lo tanto, mis preguntas serían:
- ¿Es correcto suponer que
kappa
¿es una métrica de clasificación más adecuada para este problema? - ¿El simple hecho de utilizar
kappa
¿evitar los efectos negativos del desequilibrio en el algoritmo de clasificación? ¿Es el remuestreo o el aprendizaje basado en los costes (véase http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) sigue siendo necesario?