31 votos

¿Cuál es la diferencia entre el AIC y el estadístico c (AUC) para medir el ajuste del modelo?

El criterio de información de Akaike (AIC) y el estadístico c (área bajo la curva ROC) son dos medidas de ajuste del modelo para la regresión logística. Tengo problemas para explicar qué ocurre cuando los resultados de las dos medidas no son coherentes. Supongo que miden aspectos ligeramente diferentes del ajuste del modelo, pero ¿cuáles son esos aspectos específicos?

Tengo 3 modelos de regresión logística. El modelo M0 tiene algunas covariables estándar. El modelo M1 añade X1 a M0; el modelo M2 añade X2 a M0 (por lo que M1 y M2 no están anidados).

La diferencia en el AIC de M0 a M1 y M2 es de aproximadamente 15, lo que indica que tanto X1 como X2 mejoran el ajuste del modelo, y más o menos en la misma medida.

Las estadísticas c son: M0, 0,70; M1, 0,73; M2 0,72. La diferencia en el estadístico c de M0 a M1 es significativa (método de DeLong et al 1988), pero la diferencia de M0 a M2 no es significativa, lo que indica que X1 mejora el ajuste del modelo, pero X2 no.

X1 no se recoge de forma rutinaria. Se supone que X2 se recoge de forma rutinaria, pero falta en cerca del 40% de los casos. Queremos decidir si empezamos a recoger X1, o mejoramos la recogida de X2, o dejamos de lado ambas variables.

A partir del AIC concluimos que las variables mejoran de forma similar el modelo. Probablemente sea más fácil mejorar la recogida de X2 que empezar a recoger una variable completamente nueva (X1), por lo que nuestro objetivo sería mejorar la recogida de X2. Pero a partir del estadístico c, X1 mejora el modelo y X2 no, por lo que deberíamos olvidarnos de X2 y empezar a recoger X1.

Como nuestra recomendación depende de la estadística en la que nos centremos, tenemos que entender claramente la diferencia de lo que miden.

Cualquier consejo es bienvenido.

29voto

Boar Puntos 48

El AIC y el estadístico c tratan de responder a preguntas diferentes. (También se han planteado algunos problemas con el estadístico c en los últimos años, pero ya hablaré de eso en otro momento)

A grandes rasgos:

  • El AIC le dice lo bien que se ajusta su modelo para un específico coste de clasificación errónea.
  • El AUC le indica lo bien que funcionaría su modelo, de media, en todos los costes de clasificación errónea.

Cuando se calcula el AIC, se considera que la logística que da una predicción de, por ejemplo, 0,9 es una predicción de 1 (es decir, más probable que 1 que 0), pero no tiene por qué serlo. Podría tomar su puntuación logística y decir "todo lo que esté por encima de 0,95 es 1, todo lo que esté por debajo es 0". ¿Por qué debería hacer esto? Así se aseguraría de que sólo predice un resultado cuando está realmente seguro. Su tasa de falsos positivos será realmente baja, pero sus falsos negativos se dispararán. En algunas situaciones esto no es malo: si vas a acusar a alguien de fraude, probablemente quieras estar muy seguro primero. Además, si es muy costoso hacer un seguimiento de los resultados positivos, entonces no querrá demasiados.

Por eso se relaciona con los costes. Hay un coste cuando se clasifica un 1 como un 0 y un coste cuando se clasifica un 0 como un 1. Normalmente (suponiendo que se haya utilizado una configuración por defecto) el AIC para la regresión logística se refiere al caso especial en el que ambas clasificaciones erróneas son igualmente costosas. Es decir, la regresión logística le da el mejor número total de predicciones correctas, sin ninguna preferencia por las positivas o las negativas.

La curva ROC se utiliza porque traza los verdaderos positivos frente a los falsos positivos para mostrar cómo se comportaría el clasificador si se utilizara bajo diferentes requisitos de coste. El estadístico c se debe a que cualquier curva ROC que esté estrictamente por encima de otra es claramente un clasificador dominante. Por tanto, es intuitivo medir el área bajo la curva como medida de la calidad del clasificador en general.

Así que, básicamente, si conoce sus costes a la hora de ajustar el modelo, utilice el AIC (o similar). Si sólo se construye una puntuación, pero no se especifica el umbral de diagnóstico, se necesitan enfoques AUC (con la siguiente advertencia sobre el propio AUC).

Entonces, ¿qué tiene de malo el estadístico c/AUC/Gini?

Durante muchos años, el AUC fue el enfoque estándar, y todavía se utiliza ampliamente, sin embargo, hay una serie de problemas con él. Uno de los que lo hacía especialmente atractivo era que correspondía a una prueba de Wilcox sobre los rangos de las clasificaciones. Es decir, mide la probabilidad de que la puntuación de un miembro elegido al azar de una clase sea mayor que la de un miembro elegido al azar de la otra clase. El problema es que casi nunca es una métrica útil.

Los problemas más críticos del AUC fueron publicados por David Hand hace unos años. (El quid del problema es que, aunque el AUC promedia todos los costes, como el eje x de la curva ROC es la tasa de falsos positivos, el peso que asigna a los distintos regímenes de costes varía entre los clasificadores. Por tanto, si se calcula el AUC en dos regresiones logísticas diferentes, no estará midiendo "lo mismo" en ambos casos. Esto significa que no tiene mucho sentido comparar modelos basándose en el AUC.

Hand propuso un cálculo alternativo utilizando una ponderación de costes fija, y lo llamó medida H - hay un paquete en R llamado hmeasure que realizará este cálculo, y creo que AUC para comparar.

Algunas referencias sobre los problemas del AUC:

  • ¿Cuándo es el área bajo la curva operativa del receptor una medida adecuada del rendimiento del clasificador? D.J. Hand, C. Anagnostopoulos Cartas de reconocimiento de patrones 34 (2013) 492-495

    (Me ha parecido una explicación especialmente accesible y útil)

5voto

Mike Puntos 93

El documento de Hand citado no tiene ninguna base en el uso del mundo real en el diagnóstico clínico. Tiene una curva teórica con un AUC de 0,5, que en cambio es un clasificador perfecto. Utiliza un único conjunto de datos del mundo real, en el que los modelos se desecharían de plano, ya que son tan malos, y cuando se tienen en cuenta los intervalos de confianza en torno a las mediciones (datos no proporcionados pero inferidos) es probable que sean aleatorios. Dada la falta de datos del mundo real (o incluso de simulación plausible), este es un artículo vacío. Personalmente he participado en el análisis de miles de clasificadores entre miles de pacientes (con suficientes grados de libertad). En ese contexto, sus argumentos no tienen sentido.

También es propenso a los superlativos (no es una buena señal en ningún contexto), y hace generalizaciones sin fundamento, por ejemplo, que los costes no se pueden conocer. En medicina, hay costes que se aceptan, como un valor predictivo positivo del 10% para las pruebas de detección, y 100.000 dólares por año de vida ajustado a la calidad para las intervenciones terapéuticas. Me cuesta creer que en la calificación crediticia no se conozcan bien los costes. Si está diciendo (de forma poco clara) que los diferentes falsos positivos y falsos negativos individuales conllevan diferentes costes, aunque es un tema muy interesante, no se parece a los clasificadores binarios.

Si su punto es que la forma del ROC importa, entonces para los usuarios sofisticados, eso es obvio, y los usuarios no sofisticados tienen mucho más de qué preocuparse, por ejemplo, la incorporación de la prevalencia en los valores predictivos positivos y negativos.

Por último, no entiendo cómo no se puede juzgar a los distintos clasificadores en función de los distintos puntos de corte del mundo real determinados por el uso clínico (o financiero) de los modelos. Obviamente, se elegirían diferentes puntos de corte para cada modelo. Los modelos no se compararían basándose únicamente en las AUC. Los clasificadores no importan, pero sí la forma de la curva.

0voto

Lee Puntos 171

Para mí, la conclusión es que aunque el estadístico C (AUC) puede ser problemático cuando se comparan modelos con diferentes variables independientes (análogo a lo que Hand denomina "clasificadores"), sigue siendo útil en otras aplicaciones. Por ejemplo, los estudios de validación en los que se compara el mismo modelo en diferentes poblaciones de estudio (conjuntos de datos). Si un modelo o índice/puntuación de riesgo se muestra altamente discriminante en una población, pero no en otras, esto podría indicar que no es una herramienta muy buena en general, pero puede serlo en casos específicos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X