1 votos

derivación de la función de coste de entropía cruzada

Estoy leyendo un libro popular sobre redes neuronales, aquí está el enlace. http://neuralnetworksanddeeplearning.com/chap3.html En el siguiente extracto $C$ denota la función de costes, $b$ - sesgo, $w_i$ - $i$ -Peso de la conexión, $x_i$ - $i$ -ésima componente del vector de entrada, $a$ - activación de salida para una sola neurona con múltiples entradas y una sola salida.

[...] el coste $C=Cx$ para un solo ejemplo de entrenamiento $x$ satisfaría

$\frac{\partial C}{\partial w_i } = x_j(a - y) $ (71)

$\frac{\partial C}{\partial b } = (a - y) $ (72)

Si pudiéramos elegir la función de coste para que estas ecuaciones fueran ciertas, entonces captarían de forma sencilla la intuición de que cuanto mayor es el error inicial, más rápido aprende la neurona. También eliminarían el problema de la ralentización del aprendizaje. De hecho, a partir de estas ecuaciones mostraremos ahora que es posible derivar la forma de la entropía cruzada, simplemente siguiendo nuestras narices matemáticas. Para ver esto, observa que a partir de la regla de la cadena tenemos

$\frac{\partial C}{\partial b} = \frac{\partial C}{\partial a} \sigma'(z) $

Luego integran esta ecuación y obtienen la siguiente expresión para C:

$ C=[ylna+(1y)ln(1a)]+constant $

Esta es la contribución al coste de un solo ejemplo de entrenamiento, x. Para obtener la función de coste completa debemos promediar entre los ejemplos de entrenamiento, obteniendo $ C=\frac{1}{n} \sum_{x} [ylna+(1y)ln(1a)]+constant, $ donde la constante aquí es el promedio de las constantes individuales para cada ejemplo de entrenamiento. Y así vemos que las ecuaciones (71) y (72) determinan de forma única la forma de la entropía cruzada, hasta un término constante global. La entropía cruzada no es algo que se haya sacado milagrosamente de la nada. Más bien, es algo que podríamos haber descubierto de forma sencilla y natural.

No veo cómo la ecuación 71 está involucrada en esta derivación, me parece que sólo se utilizó la segunda (72). Tengo la sensación de que es algo obvio pero estoy muy atascado y no puedo seguir leyendo :)

1voto

user3658307 Puntos 33

Recordemos que $a = \sigma(z)$ y $z = \sum_j w_j x_j + b$ . Entonces (71) y (72) implican respectivamente: $$ \partial_{w_j} C = x_j (a - y) \;\;\;\&\;\;\; \partial_{b} C = (a - y) $$ Para obtener (73), recordamos que $C(y,a) = C(y,z) = C(y,w,x,b)$ ; es decir, $C$ es una función de $b$ a través de $a$ (que los relaciona a través de $z$ ). Esto no está relacionado con (71) o (72). Así, por la regla de la cadena $$ \partial_b C = \partial_z C \underbrace{\partial_b z}_1 = \partial_a C \underbrace{\partial_z a}_{\partial_z \sigma(z)} = \sigma'(z) \partial_a C = a(1-a)\partial_a C \tag{74} $$ donde la definición de $\sigma$ implica que $\sigma'(z)=\sigma(z)(1 - \sigma(z)) = a(1-a)$ . Así, utilizando (72) y (74), obtenemos $$ \partial_a C = \frac{a - y}{a(1-a)} $$ que se puede integrar como $$ \int \frac{a - y}{a(1-a)} da = \int \left( \frac{1}{1-a} - \frac{y}{a(1-a)} \right) da = (y-1)\log(1-a) - y\log(a) + \gamma $$ donde la constante $\gamma$ (que no importa para la optimización) puede determinarse, por ejemplo, estableciendo $C(y=0.5,a=0.5) = -\log 0.5 $ .

Ok, nunca usamos (71). No era necesario. Lo que esto implica es que (72) ya es una restricción suficiente (combinada con (1) la forma de $\sigma$ [que hemos utilizado para obtener (74)] y (2) la relación entre $b$ y $a$ (que determinó la forma de la regla de la cadena en (74)).


Supongamos que $a = \sigma(z) = \sigma\left( f(w,x) + b \right) $ . Por tanto, (71) ya no es válida, en general. Al especificar (72), no decimos nada sobre $f$ . ¿Cómo puede ser que (72) determine $C$ sin limitar $f$ ?

Bueno, nosotros vemos $C$ es una función de $y$ y los parámetros $w,b$ . Desde $\sigma$ es fija, al especificar (72), estamos restringiendo la derivada de $C$ wrt $b$ para ser alguna función específica. Sin embargo, la forma de $z$ y las propiedades de $\sigma$ significa que esto realmente restringe la derivada wrt $a$ (como se ve en la ecuación (74), estamos fijando la derivada wrt $a$ para ser alguna función específica $g(y,a) = y-a$ ). Pero $C$ es sólo en función de $a$ y $y$ y para una entrada dada $y$ es fijo. Por lo tanto, la restricción $\partial_a C$ a sea una función suave determina completamente $C$ por sí mismo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X