81 votos

La comprensión de la curva ROC

Estoy teniendo problemas para la comprensión de la curva ROC.

Hay alguna ventaja o mejora en el área bajo la curva ROC si puedo construir diferentes modelos de cada subconjunto del conjunto de entrenamiento, y usarlo para producir una probabilidad? Por ejemplo, si $y$ tiene valores de $\{a, a, a, a, b, b, b, b\}$, y voy a construir el modelo de $A$ mediante $a$ a partir del 1ro-4to valores de $y$ y del 8 al 9 de valores de $y$ y construir el modelo de $B$, mediante el uso mantenido de datos del tren. Finalmente, generar la probabilidad. Cualquier pensamiento / comentarios serán muy apreciados.

Aquí es el código r para una mejor explicación para mi pregunta:

Y    = factor(0,0,0,0,1,1,1,1)
X    = matirx(rnorm(16,8,2))
ind  = c(1,4,8,9)
ind2 = -ind

mod_A    = rpart(Y[ind]~X[ind,])
mod_B    = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)

pred = numeric(8)
pred_combine[ind]  = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full          = predict(mod_full, type='prob')

Así que mi pregunta es, el área bajo la curva ROC de pred_combine vs pred_full.

203voto

Alexey Grigorev Puntos 1751

No estoy seguro de que tengo la duda, pero dado que el título de la pregunta para explicar las curvas ROC, lo voy a intentar.

Curvas ROC se suele utilizar para identificar el mejor umbral para una clasificación clasificador para separar los ejemplos positivos y negativos.

El dibujo de la curva ROC

dado un conjunto de datos procesados por su clasificación clasificador

  • la prueba de rango ejemplos en la disminución de la puntuación
  • inicio en $(0, 0)$
  • para cada ejemplo, $x$ (en orden decreciente)
    • si $x$ es positivo, se mueven $1/\text{pos}$
    • si $x$ es negativo, se mueven $1/\text{neg}$ derecho

donde $\text{pos}$ $\text{neg}$ son las fracciones de los ejemplos positivos y negativos, respectivamente.

Este bonito gif-animados imagen debe ilustrar este proceso más claro

building the curve

Nota la línea diagonal en este gráfico - esta es la línea de base, que puede ser obtenido con una muestra aleatoria de clasificador. El más nuestro de la curva ROC de esta línea, el mejor.

El área Bajo ROC

area under roc

El área bajo la Curva ROC (área sombreada), naturalmente, muestra hasta qué punto la curva de la línea de base. Para la línea de base es de 0,5, y para el perfecto clasificador es 1.

Más acerca de las AUC ROC se puede leer en esta pregunta: ¿Qué AUC y ¿qué es?

La selección de la Mejor Umbral

Voy a describir brevemente el proceso de selección de la mejor umbral, y más detalles se pueden encontrar en la referencia.

Para seleccionar el mejor del umbral de ver cada punto de la curva ROC separado clasificadora. Este mini-clasificadores utiliza la puntuación el momento se puso como límite entre + y - (es decir, que se clasifica como + todos los puntos por encima de la actual)

Dependiendo de la pos/neg fracción en nuestro conjunto de datos en paralelo a la línea de base en el caso de 50%/50% - construir ISO Precisión de Líneas y la uno con la mejor precisión.

Aquí está una foto que ilustra que las y los detalles los invito nuevamente a la referencia

selecting best threshold

Referencia

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X