5 votos

Calcular los Costos para las Curvas ROC

Estoy tratando de calcular el umbral óptimo para un clasificador binario utilizando Receiver operating characteristic (ROC). Actualmente estoy en la asignación de un costo para cada uno de los falsos negativos y otro costo para cada uno de los "falsos positivos". Entonces yo estoy ejecutando un programa de optimización lineal para minimizar el costo total [Min Costo1*(número de FN) + Cost2*(número de FP)]. Mis dos preguntas son:

  • Es allí una manera formal para calcular los costos para asignar a la parear las instancias? He mirado por los artículos publicados en esta tema, pero no pude encontrar ninguna.
  • Hay una mejor manera de encontrar el umbral óptimo?

5voto

EdM Puntos 5716

No hay manera de calcular los costos de etiquetado de los casos. Que depende de la subyacente objeto y el propósito de su esquema de clasificación. Esencialmente, usted tiene que responder a la pregunta de sí mismo en cuanto a los costes"," en su aplicación, para tener falsos positivos o falsos negativos. Incluso es posible que desee para equilibrar los costes frente a los "beneficios" de los verdaderos positivos y los beneficios de verdaderos negativos. (Los 2 correcto clasificaciones pueden tener diferentes beneficios para su aplicación). Por supuesto, en relación costes/beneficios son necesarios para que este, no valores absolutos en unidades de la moneda.

Usted también tiene que considerar si usted realmente quiere estar saltando a un clasificador binario en este punto de su análisis. Aunque muchas situaciones termina con un forzado decisión de sí o no, a veces también puede querer decir "necesito más información" antes de tomar una decisión final. Si el clasificador se utiliza junto con otra información para hacer algunas de final de la decisión de sí o no, entonces usted podría estar mejor quedarse con las probabilidades de pertenencia a una clase, en este punto y que la combinación de la probabilidad continua estimar con otra información antes de tomar la decisión final.

En términos de encontrar un umbral que minimiza los costos netos, de su enfoque general es una forma de empezar. Usted debe, sin embargo, asegúrese de que sus estimaciones de los costos no son excesivamente ligado a las particularidades de su presente muestra de datos. Por ejemplo, usted podría repetir todo el modelo de construcción con el proceso de validación cruzada y elegir el proceso que proporciona el mínimo costo neto en el lugar-fuera de los casos a través de múltiples cruz-los conjuntos de validación. Usted no puede producir el mismo modelo que el de usted, basado en el conjunto de datos completo, pero lo que se obtiene puede generalizar mejor a los nuevos casos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X