El AIC y el estadístico c tratan de responder a preguntas diferentes. (También se han planteado algunos problemas con el estadístico c en los últimos años, pero ya hablaré de eso en otro momento)
A grandes rasgos:
- El AIC le dice lo bien que se ajusta su modelo para un específico coste de clasificación errónea.
- El AUC le indica lo bien que funcionaría su modelo, de media, en todos los costes de clasificación errónea.
Cuando se calcula el AIC, se considera que la logística que da una predicción de, por ejemplo, 0,9 es una predicción de 1 (es decir, más probable que 1 que 0), pero no tiene por qué serlo. Podría tomar su puntuación logística y decir "todo lo que esté por encima de 0,95 es 1, todo lo que esté por debajo es 0". ¿Por qué debería hacer esto? Así se aseguraría de que sólo predice un resultado cuando está realmente seguro. Su tasa de falsos positivos será realmente baja, pero sus falsos negativos se dispararán. En algunas situaciones esto no es malo: si vas a acusar a alguien de fraude, probablemente quieras estar muy seguro primero. Además, si es muy costoso hacer un seguimiento de los resultados positivos, entonces no querrá demasiados.
Por eso se relaciona con los costes. Hay un coste cuando se clasifica un 1 como un 0 y un coste cuando se clasifica un 0 como un 1. Normalmente (suponiendo que se haya utilizado una configuración por defecto) el AIC para la regresión logística se refiere al caso especial en el que ambas clasificaciones erróneas son igualmente costosas. Es decir, la regresión logística le da el mejor número total de predicciones correctas, sin ninguna preferencia por las positivas o las negativas.
La curva ROC se utiliza porque traza los verdaderos positivos frente a los falsos positivos para mostrar cómo se comportaría el clasificador si se utilizara bajo diferentes requisitos de coste. El estadístico c se debe a que cualquier curva ROC que esté estrictamente por encima de otra es claramente un clasificador dominante. Por tanto, es intuitivo medir el área bajo la curva como medida de la calidad del clasificador en general.
Así que, básicamente, si conoce sus costes a la hora de ajustar el modelo, utilice el AIC (o similar). Si sólo se construye una puntuación, pero no se especifica el umbral de diagnóstico, se necesitan enfoques AUC (con la siguiente advertencia sobre el propio AUC).
Entonces, ¿qué tiene de malo el estadístico c/AUC/Gini?
Durante muchos años, el AUC fue el enfoque estándar, y todavía se utiliza ampliamente, sin embargo, hay una serie de problemas con él. Uno de los que lo hacía especialmente atractivo era que correspondía a una prueba de Wilcox sobre los rangos de las clasificaciones. Es decir, mide la probabilidad de que la puntuación de un miembro elegido al azar de una clase sea mayor que la de un miembro elegido al azar de la otra clase. El problema es que casi nunca es una métrica útil.
Los problemas más críticos del AUC fueron publicados por David Hand hace unos años. (El quid del problema es que, aunque el AUC promedia todos los costes, como el eje x de la curva ROC es la tasa de falsos positivos, el peso que asigna a los distintos regímenes de costes varía entre los clasificadores. Por tanto, si se calcula el AUC en dos regresiones logísticas diferentes, no estará midiendo "lo mismo" en ambos casos. Esto significa que no tiene mucho sentido comparar modelos basándose en el AUC.
Hand propuso un cálculo alternativo utilizando una ponderación de costes fija, y lo llamó medida H - hay un paquete en R llamado hmeasure
que realizará este cálculo, y creo que AUC para comparar.
Algunas referencias sobre los problemas del AUC:
-
¿Cuándo es el área bajo la curva operativa del receptor una medida adecuada del rendimiento del clasificador? D.J. Hand, C. Anagnostopoulos Cartas de reconocimiento de patrones 34 (2013) 492-495
(Me ha parecido una explicación especialmente accesible y útil)