Se corta la mano por el operador (teniendo el 3D caso):
$\nabla:=\textbf{i}\frac{\partial}{\partial x} + \textbf{j}\frac{\partial}{\partial y} + \textbf{k}\frac{\partial}{\partial z}$
Donde $\bf{i}$, $\bf{j}$, y $\bf{k}$ son los vectores unitarios a lo largo del eje. Ahora, el punto y la cruz operaciones también se corto la mano y son etiquetados como tales debido a que actúan sobre vectores en una manera similar que los respectivos productos.
Para las redes neuronales, la función de costo $C$ es lo que se conoce como un "campo escalar". En términos simples, es una función que toma en muchas entradas (o vectores) y escupe sólo un número real. Algunos otros relacionados, en el mundo real ejemplos de esto son, por ejemplo, la temperatura de una habitación $T(x,y,z)$ y la elevación de la tierra en una región montañosa $h(x,y)$, los cuales varían dependiendo de la posición (un vector) y te dan un número fijo (temperatura o de elevación).
Ahora, para realizar la gradiente de la pendiente, aquí están algunas cosas a tener en cuenta:
Dado escalar $C(\textbf{x})$, $\nabla C = \sum_\textbf{i}{\frac{\partial C}{\partial x_\textbf{i}}\textbf{i}}$ es un vector. Este vector apunta SIEMPRE "cuesta arriba", así que, naturalmente, $-\nabla C$ siempre apunta "hacia abajo".
Así que ahora tenemos que responder a la pregunta, "En el fin de avanzar en descenso desde mi ubicación actual, en qué dirección debo ir a?" Ahora sabemos que desde el anterior hecho de que el descenso de la dirección es $-\nabla C(\textbf{x}_n)$ desde nuestra ubicación actual $\textbf{x}_n$ por lo tanto podemos decir que si damos un paso y llegar a la posición $\textbf{x}_{n+1}$, se les garantiza a descender si seguimos la regla de $\textbf{x}_{n+1}=\textbf{x}_{n} - \nabla C(\textbf{x}_{n})$. Que es la fórmula recursiva para la gradiente de la pendiente de que probablemente has visto ya, pero el gradiente de plazo fue extendido por un valor muy pequeño que se refiere como la "tasa de aprendizaje". Lo que esto hace es hacer que el proceso tome pequeños pasos en la dirección dada en el fin de minimizar las posibilidades de que se pasa por la mínima convergencia mejor y no oscilan alrededor de los mínimos.
Ahora, tenga en cuenta que cuando se trabaja con este tipo de algoritmos, es muy común ver a la aplicación de técnicas heurísticas para reducir la potencia de procesamiento requisito. Por ejemplo:
Un común de la función de costo es $C=(y(x)-y_o)^2$ cuya derivada es $C'=2(y(x)-y_o)y'(x)$. Desde este conseguirá finalmente reducido por el ritmo de aprendizaje de todos modos, el factor de 2 (o cualquier otro escalar constante) es generalmente omitido, ya que no contienen ningún tipo de información acerca de la dirección de descenso.