26 votos

¿Por qué dos interpretaciones de las AUC(área bajo la ROC curver) Equivalente

Veo que hay dos maneras de entender lo de las AUC significa, pero no pude conseguir por que estas dos interpretaciones son equivalentes matemáticamente.

En la primera interpretación, el AUC es el área bajo la curva ROC. Recoger puntos de 0 a 1 como umbral y calcular la sensibilidad y especificidad en consecuencia. Cuando trazamos una contra la otra, obtenemos la curva ROC.

La segunda es que el AUC de un clasificador es igual a la probabilidad de que el clasificador rango de una elegidos al azar de ejemplo positivo mayor que un elegido al azar de ejemplo negativo, es decir, P(puntuación(x+)>puntuación(x−)). (de Lo que hace el AUC y ¿qué es?)

31voto

Robert Puntos 26

Es fácil ver que una vez que se obtiene una forma cerrada de fórmula para las AUC.

Ya tenemos número finito de muestras $\{(x_i, y_i)\}_{i=1}^N$, vamos a tener número finito de puntos en la curva ROC. Softonic interpolación lineal entre ellas.

En primer lugar, algunas definiciones. Supongamos que nos gustaría para la evaluación de un algoritmo de $A(x)$ que genera una probabilidad de $x$ acostado en el positivo de la clase $+1$. Vamos a definir $N_+$ como el número de muestras de la positiva clase $+1$ $N_-$ como el número de muestras de la clase negativa $-1$. Ahora, para un umbral de $\tau$ vamos a definir Falsos Positivos-Tasa (FPR, también conocido como 1-especificidad) y Positivos Verdaderos-Tasa (TPR, también conocido como sensibilidad):

$$ \text{TPR}(\tau) = \frac{\sum_{i=1}^N [y_i = +1] [(x_i) \ge \tau]}{N_+} \quad \text{y} \quad \text{PM}(\tau) = \frac{\sum_{i=1}^N [y_i = -1] [(x_i) \ge \tau]}{N_-} $$

(donde $[\text{boolean expression}]$ es 1 si la expresión es positiva, y 0 en caso contrario). Entonces, la curva ROC es construir a partir de los puntos de la forma $(\text{FPR}(\tau), \text{TPR}(\tau))$ para diferentes valores de $\tau$. Por otra parte, es fácil ver que es que el fin de nuestras muestras $x_{(i)}$ según el algoritmo de la salida de $A(x_i)$, entonces ninguno de los $\text{TPR}$ ni $\text{FPR}$ no cambia para $A(x_{(i)}) < \tau < A(x_{(i+1)})$. A fin de evaluar la IAP y TPR sólo para $\tau \in \{A(x_{(1)}), \dots, A(x_{(N)})\}$. Para $k^{\text{th}}$ punto tenemos

$$ \text{TPR}_k = \frac{\sum_{i=k}^N [y_{(i)} = +1]}{N_+} \quad \text{y} \quad \text{PM}_k = \frac{\sum_{i=k}^N [y_{(i)} = -1]}{N_-} $$

(Nota: todos los valores son no creciente). Tener interpolados linealmente estos puntos se puede calcular el área bajo la curva (Utilizando una fórmula para el área de un trapecio):

$$ \text{AUC} = \sum_{k=1}^{N-1} \frac{\text{TPR}_{k+1} + \text{TPR}_{k}}{2} (\text{PM}_{k} - \text{PM}_{k+1}) \\ = \sum_{k=1}^{N-1} \frac{\sum_{i=k+1}^N [y_{(i)} = +1] + \tfrac{1}{2} [y_{(k)} = +1]}{N_+} \frac{[y_{(k)} = -1]}{N_-} \\ = \frac{1}{N_+ N_-} \sum_{k=1}^{N-1} \sum_{i=k+1}^N [y_{(i)} = +1] [y_{(k)} = -1] = \frac{1}{N_+ N_-} \sum_{k < i} [y_{(k)} < y_{(i)}] $$

Aquí he utilizado el hecho de que $[y = -1] [y = +1] = 0$, independientemente del valor de $y$.

Así que ahí lo tienen: el AUC es proporcional al número de correctamente los pares ordenados, que es proporcional a la probabilidad de azar par de muestras que se clasifican de acuerdo a sus etiquetas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X