Estoy leyendo un libro popular sobre redes neuronales, aquí está el enlace. http://neuralnetworksanddeeplearning.com/chap3.html En el siguiente extracto $C$ denota la función de costes, $b$ - sesgo, $w_i$ - $i$ -Peso de la conexión, $x_i$ - $i$ -ésima componente del vector de entrada, $a$ - activación de salida para una sola neurona con múltiples entradas y una sola salida.
[...] el coste $C=Cx$ para un solo ejemplo de entrenamiento $x$ satisfaría
$\frac{\partial C}{\partial w_i } = x_j(a - y) $ (71)
$\frac{\partial C}{\partial b } = (a - y) $ (72)
Si pudiéramos elegir la función de coste para que estas ecuaciones fueran ciertas, entonces captarían de forma sencilla la intuición de que cuanto mayor es el error inicial, más rápido aprende la neurona. También eliminarían el problema de la ralentización del aprendizaje. De hecho, a partir de estas ecuaciones mostraremos ahora que es posible derivar la forma de la entropía cruzada, simplemente siguiendo nuestras narices matemáticas. Para ver esto, observa que a partir de la regla de la cadena tenemos
$\frac{\partial C}{\partial b} = \frac{\partial C}{\partial a} \sigma'(z) $
Luego integran esta ecuación y obtienen la siguiente expresión para C:
$ C=[ylna+(1y)ln(1a)]+constant $
Esta es la contribución al coste de un solo ejemplo de entrenamiento, x. Para obtener la función de coste completa debemos promediar entre los ejemplos de entrenamiento, obteniendo $ C=\frac{1}{n} \sum_{x} [ylna+(1y)ln(1a)]+constant, $ donde la constante aquí es el promedio de las constantes individuales para cada ejemplo de entrenamiento. Y así vemos que las ecuaciones (71) y (72) determinan de forma única la forma de la entropía cruzada, hasta un término constante global. La entropía cruzada no es algo que se haya sacado milagrosamente de la nada. Más bien, es algo que podríamos haber descubierto de forma sencilla y natural.
No veo cómo la ecuación 71 está involucrada en esta derivación, me parece que sólo se utilizó la segunda (72). Tengo la sensación de que es algo obvio pero estoy muy atascado y no puedo seguir leyendo :)