Entiendo que el paso hacia delante de una red neuronal de avance puede considerarse como una función compuesta de capa oculta, y la retropropagación funciona aplicando recursivamente la regla de la cadena a esa función compuesta para encontrar gradientes locales.
¿Qué representa exactamente cada aplicación de la regla de la cadena durante la retropropagación? ¿Se aplica a cada nodo de cada capa oculta? ¿Tiene el gradiente de error tantos ejes como nodos tiene la red?