Estoy leyendo el capítulo Prueba de las cuatro ecuaciones fundamentales del libro "Redes Neuronales y Aprendizaje Profundo" y creo que tengo una idea general sobre la retropropagación y las matemáticas involucradas, pero hay una parte que no logro entender:
Comencemos con la Ecuación (BP1), que da una expresión para el error de salida, $\delta^L$. Para demostrar esta ecuación, recordemos que por definición \begin{eqnarray} \delta^L_j = \frac{\partial C}{\partial z^L_j}. \tag{36}\end{eqnarray} Aplicando la regla de la cadena, podemos reexpresar la derivada parcial anterior en términos de derivadas parciales con respecto a las activaciones de salida, \begin{eqnarray} \delta^L_j = \sum_k \frac{\partial C}{\partial a^L_k} \frac{\partial a^L_k}{\partial z^L_j}, \tag{37}\end{eqnarray} donde la suma es sobre todas las neuronas $k$ en la capa de salida. Por supuesto, la activación de salida $a^L_k$ de la neurona $k^{\rm th}$ depende solo de la entrada ponderada $z^L_j$ para la neurona $j^{\rm th}$ cuando $k=j$. Y así $\partial a^L_k / \partial z^L_j$ se anula cuando $k!=j$. Como resultado, podemos simplificar la ecuación anterior a \begin{eqnarray} \delta^L_j = \frac{\partial C}{\partial a^L_j} \frac{\partial a^L_j}{\partial z^L_j}. \tag{38}\end{eqnarray}
No entiendo por qué, en la segunda ecuación, está sumando sobre todas las neuronas $k$ en la capa de salida. Intuitivamente habría obtenido directamente la tercera ecuación a partir de la primera aplicando la regla de la cadena, considerando solo la activación de salida $a^L_j$. Entiendo que $C$ es una función que depende de todas las activaciones de salida, así que tal vez la razón es porque en su expresión $C = \frac{1}{2} \sum_j (y_j-a^L_j)^2$ está la suma. Sin embargo, siento que me estoy perdiendo algo.