30 votos

¿Cuáles son las repercusiones de la elección de diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1

Sabemos que algunas funciones objetivo son más fáciles de optimizar y otras son difíciles. Y hay muchas funciones de pérdida que queremos usar pero que son difíciles de usar, por ejemplo la pérdida 0-1. Así que encontramos algunas proxy funciones de pérdida para hacer el trabajo. Por ejemplo, utilizamos la pérdida de bisagra o la pérdida logística para "aproximar" la pérdida 0-1.

La siguiente trama proviene de El libro PRML de Chris Bishop . La pérdida en bisagra se representa en azul, la pérdida logarítmica en rojo, la pérdida cuadrada en verde y el error 0/1 en negro.

enter image description here

Entiendo que la razón por la que tenemos ese diseño (para la bisagra y la pérdida logística) es que queremos que la función objetivo sea convexa.

Al observar la pérdida de la bisagra y la pérdida logística, se penalizar más las instancias fuertemente mal clasificadas y de manera interesante, también penaliza las instancias correctamente clasificadas si están débilmente clasificadas . Es un diseño realmente extraño.

Mi pregunta es ¿cuáles son los precios que tenemos que pagar por utilizar diferentes "funciones de pérdida indirectas", como la pérdida de bisagra y la pérdida logística?

19voto

dontloo Puntos 334

Sin embargo, algunos de mis pensamientos pueden no ser correctos.

Entiendo que la razón por la que tenemos ese diseño (para la bisagra y la pérdida logística) es que queremos que la función objetivo sea convexa.

La convexidad es seguramente una buena propiedad, pero creo que la razón más importante es que queremos que la función objetivo tenga derivados no nulos para que podamos hacer uso de las derivadas para resolverla. La función objetivo puede ser no convexa, en cuyo caso solemos detenernos en algunos óptimos locales o puntos de silla.

y, curiosamente, también penaliza las instancias correctamente clasificadas si se clasifican débilmente. Es un diseño realmente extraño.

Creo que este diseño aconseja al modelo no sólo hacer las predicciones correctas, sino también tener confianza en las predicciones. Si no queremos que las instancias correctamente clasificadas sean castigadas, podemos, por ejemplo, mover la pérdida de la bisagra (azul) hacia la izquierda en 1, de modo que ya no obtengan ninguna pérdida. Pero creo que esto suele llevar a un peor resultado en la práctica.

¿cuáles son los precios que tenemos que pagar al utilizar diferentes "funciones de pérdida proxy funciones de pérdida", como la pérdida de bisagra y la pérdida logística?

OMI al elegir diferentes funciones de pérdida estamos aportando diferentes supuestos al modelo. Por ejemplo, la pérdida por regresión logística (rojo) asume una distribución Bernoulli, la pérdida MSE (verde) asume un ruido gaussiano.


Siguiendo el ejemplo de los mínimos cuadrados frente a la regresión logística en PRML, añadí la pérdida de bisagra para comparar. enter image description here

Como se muestra en la figura, la pérdida de bisagra y la regresión logística / entropía cruzada / log-verosimilitud / softplus tienen resultados muy próximos, porque sus funciones objetivo son cercanas (figura siguiente), mientras que el MSE es generalmente más sensible a los valores atípicos. La pérdida en bisagra no siempre tiene una solución única porque no es estrictamente convexa.

enter image description here

Sin embargo, una propiedad importante de la pérdida de bisagra es que los puntos de datos alejados del límite de decisión no contribuyen a la pérdida, la solución será la misma con esos puntos eliminados.

Los puntos restantes se denominan vectores de soporte en el contexto de la SVM. Mientras que SVM utiliza un término regularizador para garantizar la propiedad de margen máximo y una solución única.

7voto

Adrya Puntos 573

Una respuesta tardía, ya que hay una respuesta muy sencilla que aún no se ha mencionado.

¿cuáles son los precios que tenemos que pagar por utilizar diferentes "funciones de pérdida indirectas", como la pérdida de bisagra y la pérdida logística?

Cuando se sustituye el no convexo función de pérdida 0-1 por un convexo sustituto (por ejemplo, pérdida de bisagras), en realidad está resolviendo un problema diferente al que pretendía resolver (que es minimizar el número de errores de clasificación). Por lo tanto, usted ganar la trazabilidad computacional (el problema se convierte en convexo, lo que significa que se puede resolver eficientemente utilizando herramientas de optimización convexa), pero en el caso general no hay forma de relacionar el error del clasificador que minimiza una pérdida "proxy" y el error del clasificador que minimiza la pérdida 0-1 . Si lo que verdaderamente se preocupó por minimizar el número de clasificaciones erróneas, sostengo que este es realmente un gran precio a pagar.

Debo mencionar que esta afirmación es el peor de los casos en el sentido de que se mantiene para cualquier distribución $\mathcal D$ . Para algunas distribuciones "bonitas", hay excepciones a esta regla. El ejemplo clave es el de las distribuciones de datos que tienen grandes márgenes con respecto a la frontera de decisión; véase el teorema 15.4 en Shalev-Shwartz, Shai, y Shai Ben-David. Entender el aprendizaje automático: De la teoría a los algoritmos. Cambridge university press, 2014.

3voto

Aksakal Puntos 11351

Lo ideal es que su función de pérdidas refleje las pérdidas reales sufridas por la empresa. Por ejemplo, si está clasificando bienes dañados, entonces la pérdida por clasificación errónea podría ser así:

  • marcado de mercancías dañadas que no lo estaban: pérdida de beneficios en la venta potencial
  • no marcar las mercancías dañadas que estaban dañadas: coste de la tramitación de la devolución

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X