Creo que hay un error en la pregunta al decir el uso del "descenso de gradiente" en el algoritmo de retropropagación, son dos cosas completamente diferentes, déjame aclararte sus definiciones:
Backpropogation es una técnica eficaz que proporciona un método computacionalmente eficiente para evaluar las derivadas en una red. El término retropropagación se utiliza específicamente para describir la evaluación de las derivadas. Ahora bien, estas derivadas se utilizan para realizar ajustes en los pesos, la técnica más sencilla es descenso de gradiente .
Es importante reconocer que las dos etapas son distintas. Así, la primera etapa, es decir, la propagación de errores hacia atrás a través de la red (es decir, la retropropagación) para evaluar las derivadas, puede aplicarse a muchos otros tipos de redes y no sólo al perceptrón multicapa. Del mismo modo, la segunda etapa de ajuste de pesos utilizando las derivadas calculadas puede abordarse utilizando una variedad de esquemas de optimización, muchos de los cuales son sustancialmente más potentes que el simple descenso de gradiente, como los métodos que tienen tasas de aprendizaje adaptativas, por ejemplo, técnicas como Nestrov mommentum, Adam, etc. Espero que esto responda a la primera parte de la pregunta.
Ahora hay definitivamente una buena razón para usar el descenso de gradiente o cualquier otro algoritmo con tasa de aprendizaje adaptable sobre los métodos de segundo orden como Método de Newton La aplicación del método de Newton para el entrenamiento de grandes redes neuronales está limitada por la gran cantidad de carga computacional que impone. El número de elementos de la matriz hessiana es el cuadrado del número de parámetros, por lo que con k parámetros (e incluso para redes neuronales muy pequeñas el número de parámetros k puede ser de millones), el método de Newton requeriría la inversión de una matriz k × k con una complejidad computacional de O(k^3). Además, como los parámetros cambiarán con cada actualización, el hessiano inverso debe calcularse en cada iteración de entrenamiento. En consecuencia, sólo pueden practicarse redes con un número muy pequeño de parámetros se pueden entrenar de forma práctica mediante el método de Newton