6 votos

¿Por qué la pérdida de entropía cruzada es mejor que el MSE para la clasificación multiclase?

Sé que hay mucho material sobre esto, pero todavía estoy luchando por encontrar un escenario en el que la pérdida de entropía cruzada sea mejor que la pérdida MSE para un problema de clasificación multiclase.

Por ejemplo, si tenemos probabilidades verdaderas como:

  • [1, 0, 0, 0]

y las probabilidades predichas (después de usar Softmax) son:

  • [0.6, 0.4, 0, 0]

La pérdida de entropía cruzada es de 0,74 y la pérdida MSE es de 0,08.

Si cambiamos las probabilidades predichas a: [0,4, 0,6, 0, 0], la pérdida de entropía cruzada es de 1,32, y la pérdida de MSE de 0,12.

Como era de esperar, la pérdida de entropía cruzada es mayor en el segundo caso porque la probabilidad predicha es menor para la etiqueta verdadera. Sin embargo, la pérdida MSE capta este cambio aumentando también.

Así que mi pregunta es ¿por qué necesitamos la pérdida de entropía cruzada? La pérdida MSE parece funcionar bien. ¿O tiene que ver con el hecho de que la pérdida de entropía cruzada casi se duplicó mientras que la pérdida MSE sólo aumentó en 0,04? He probado muchos ejemplos diferentes con distintos valores, pero tanto la pérdida MSE como la pérdida de entropía cruzada aumentan o disminuyen (a menos que haya un ejemplo que no haya probado todavía).

Sé que la pérdida de entropía cruzada sólo se preocupa por la probabilidad de la etiqueta verdadera, y pretende maximizarla. Pero medir indiscriminadamente la distancia entre todas las probabilidades (como en la pérdida MSE) calcula indirectamente la probabilidad de la etiqueta verdadera de todos modos, así que no veo el sentido de usar la pérdida de entropía cruzada.

4voto

Dave Puntos 76

La pérdida de entropía cruzada es equivalente a la estimación de máxima verosimilitud en una regresión logística multinomial. En consecuencia, obtenemos todas las maravillosas características de la estimación de máxima verosimilitud.

Este tema ya ha surgido aquí, y una de las respuestas apasionadas califica de "tontería" estimar los parámetros minimizando las pérdidas al cuadrado.

El MSE, que también se conoce como "puntuación de Brier" en este contexto, es, sin embargo, una regla de puntuación estrictamente adecuada y puede ser una métrica de rendimiento que vale la pena calcular.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X