11 votos

¿Cómo se interpreta el valor de entropía cruzada?

En el aprendizaje automático, la entropía cruzada se utiliza a menudo para entrenar una red neuronal.

Durante el entrenamiento de mi red neuronal, hago un seguimiento de la precisión y la entropía cruzada. La precisión es bastante baja, así que sé que mi red no funciona bien. Pero, ¿qué puedo decir de mi modelo conociendo la entropía cruzada?

15voto

Antoni Parellada Puntos 2762

Andrew Ng explica la intuición que subyace al uso de la entropía cruzada como función de coste en su Curso ML Coursera en el módulo de regresión logística, concretamente en este momento con la expresión matemática:

$$\text{Cost}\left(h_\theta(x),y\right)=\left\{ \begin{array}{l} -\log\left(h_\theta(x)\right) \quad \quad\quad \text{if $y =1$}\\ -\log\left(1 -h_\theta(x)\right) \quad \;\text{if $y =0$} \end{array} \right. $$

La idea es que con una función de activación con valores entre cero y uno (en este caso un sigmoide logístico, pero claramente aplicable a, por ejemplo, un función softmax en CNN, donde la salida final es una logística multinomial), el coste en el caso de una verdadero 1 valor ( $y=1$ ), disminuirá de infinito a cero a medida que $h_\theta(x)\to1$ porque lo ideal sería que fuera $1$ que predice exactamente el valor verdadero y, por tanto, recompensa una salida de activación que se acerque a él; recíprocamente, el coste tenderá a infinito a medida que la función de activación tienda a $0$ . Lo contrario ocurre con $y=0$ con el truco de obtener el logaritmo de $1-h_\theta(x)$ frente a $h_\theta(x).$


Aquí está mi intento de mostrar esto gráficamente, ya que limitamos estas dos funciones entre las líneas verticales en $0$ y $1$ , coherente con la salida de una función sigmoidea:

enter image description here


Esto puede resumirse en una expresión más sucinta como:

$$\text{Cost}\left(h_\theta(x),y\right)=-y\log\left(h_\theta(x)\right)-(1-y) \log\left(1 - h_\theta(x)\right).$$

En el caso de softmax en CNN, la entropía cruzada se formularía de forma similar como

$$\text{Cost}=-\sum_j \,t_j\,\log(y_j)$$

donde $t_j$ representa el valor objetivo de cada clase, y $y_j$ la probabilidad que le asigna la salida.

Más allá de la intuición, la introducción de la entropía cruzada pretende que la función de coste sea convexa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X