Sé que hay mucho material sobre esto, pero todavía estoy luchando por encontrar un escenario en el que la pérdida de entropía cruzada sea mejor que la pérdida MSE para un problema de clasificación multiclase.
Por ejemplo, si tenemos probabilidades verdaderas como:
- [1, 0, 0, 0]
y las probabilidades predichas (después de usar Softmax) son:
- [0.6, 0.4, 0, 0]
La pérdida de entropía cruzada es de 0,74 y la pérdida MSE es de 0,08.
Si cambiamos las probabilidades predichas a: [0,4, 0,6, 0, 0], la pérdida de entropía cruzada es de 1,32, y la pérdida de MSE de 0,12.
Como era de esperar, la pérdida de entropía cruzada es mayor en el segundo caso porque la probabilidad predicha es menor para la etiqueta verdadera. Sin embargo, la pérdida MSE capta este cambio aumentando también.
Así que mi pregunta es ¿por qué necesitamos la pérdida de entropía cruzada? La pérdida MSE parece funcionar bien. ¿O tiene que ver con el hecho de que la pérdida de entropía cruzada casi se duplicó mientras que la pérdida MSE sólo aumentó en 0,04? He probado muchos ejemplos diferentes con distintos valores, pero tanto la pérdida MSE como la pérdida de entropía cruzada aumentan o disminuyen (a menos que haya un ejemplo que no haya probado todavía).
Sé que la pérdida de entropía cruzada sólo se preocupa por la probabilidad de la etiqueta verdadera, y pretende maximizarla. Pero medir indiscriminadamente la distancia entre todas las probabilidades (como en la pérdida MSE) calcula indirectamente la probabilidad de la etiqueta verdadera de todos modos, así que no veo el sentido de usar la pérdida de entropía cruzada.