21 votos

La elección entre la pérdida de las funciones de clasificación binaria

Yo trabajo en un dominio del problema donde la gente suele informar de ROC-AUC o AveP (promedio de precisión). Sin embargo, recientemente he encontrado documentos que optimizar el Registro de la Pérdida del lugar, mientras que otros informes de la Bisagra de la Pérdida.

Aunque puedo comprender cómo estos se calculan las métricas, estoy teniendo un tiempo difícil la comprensión de los trade-offs entre ellos y que es buena por lo que exactamente.

Cuando se trata de ROC-AUC vs Precision-Recall, este hilo se explica cómo ROC-AUC-maximización puede ser visto como el uso de una pérdida criterios de optimización que penaliza la "clasificación de un verdadero negativo, al menos, tan grande como un verdadero positivo" (suponiendo que las puntuaciones más altas corresponden a los positivos). También, este otro hilo también proporciona una útil discusión de ROC-AUC en contraste con Precision-Recall métricas.

Sin embargo, ¿para qué tipo de problemas de registro de la pérdida del ser preferido sobre, digamos, ROC-AUC, AveP o la Bisagra de la pérdida? Lo que es más importante, ¿qué tipo de preguntas se debe preguntar sobre el problema a la hora de elegir entre estos pérdida de las funciones de clasificación binaria?

10voto

JohnRos Puntos 3211

El estado-of-the-art de referencia en la materia [1]. En esencia, se muestra que toda la pérdida de las funciones que especifique convergen en el clasificador de Bayes, con ritmos rápidos.

La elección entre estos para muestras finitas pueden ser impulsados por diferentes argumentos:

  1. Si desea recuperar evento de probabilidades (y no sólo las clasificaciones), entonces la logística de registro de la pérdida, o cualquier otro modelo lineal generalizado (regresión Probit, complementarias-registro-registro de regresión,...) es un candidato natural.
  2. Si usted está apuntando sólo a la clasificación, el SVM puede ser una opción preferida, ya que se centra únicamente en las observaciones en la clasificación buondary, e ignora distante de observación, mitigando el impacto de la veracidad de la supuesta modelo lineal.
  3. Si usted no tiene muchas observaciones, entonces la ventaja en 2 puede ser una desventaja.
  4. Puede haber computacional diferencias: tanto en la declaró problema de optimización, y en particular, la aplicación que está utilizando.
  5. Línea de fondo, simplemente puede tratar a todos ellos y elegir el mejor intérprete.

[1] Bartlett, Pedro L, Michael I de Jordania, y Jon D McAuliffe. "La convexidad, la Clasificación, y el Riesgo de los Límites." Revista de la Asociación Americana de Estadística 101, no. 473 (Marzo de 2006): 138-56. doi:10.1198/016214505000000907.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X