He mirado la respuesta a esta pregunta https://stackoverflow.com/questions/41990250/what-is-cross-entropy para tratar de entender de la cruz-la entropía y a mí me parece que cuando la verdadera etiqueta para una clase es 0, la pérdida no aumentar, no importa lo que la predicción era porque el registro de la predicción sería multiplicado por 0. Esto no parece muy acertada la forma de calcular la pérdida para mí. Me estoy perdiendo algo?
Respuesta
¿Demasiados anuncios?$ \mathcal{L}(\theta) = - \frac{1}{n}\sum_{i=1}^n \left[y_i \log(p_i) + (1-y_i) \log(1-p_i)\right] $$ cuando $y_i=0$, el segundo término es distinto de cero $p_i \in (0,1)$. Los factores que implican $y_i$ son como un "interruptor". Sólo uno de los factores que implican $y_i$ es distinto de cero, de modo que es el término de pérdida sólo relevante muestra $i$.