Muchos libros y tutoriales sobre redes neuronales dedican mucho tiempo al algoritmo de retropropagación, que es esencialmente una herramienta para calcular el gradiente.
Supongamos que estamos construyendo un modelo con ~10K parámetros / pesos. Es posible ejecutar la optimización utilizando algunos algoritmos de optimización sin gradiente?
Creo que calcular el gradiente numérico sería demasiado lento, pero ¿qué tal otros métodos como Nelder-Mead, Simulated Annealing o un Algoritmo Genético?
Todos los algoritmos sufrirían mínimos locales, ¿por qué obsesionarse con el gradiente?
3 votos
Posible duplicado de En las redes neuronales, ¿por qué utilizar métodos de gradiente en lugar de otras metaheurísticas?
6 votos
@FranckDernoncourt Interpreté la otra pregunta como "¿por qué no utilizar global de optimización para entrenar redes neuronales?", mientras que ésta es más bien "¿por qué no utilizar sin derivados optimzers ...".
0 votos
@GeoMatt22 Ya veo, voto retirado, dejo que el OP decida :)
7 votos
Con 3 respuestas upvoted, esto no me parece demasiado amplio para ser contestado.
6 votos
Sí, no tienes que preocuparte mucho de que Nelder-Mead se atasque en un mínimo local, porque tendrás suerte si llega a algún sitio útil.
1 votos
Puede que sea bueno, pero es tan poco conocido que probablemente nadie lo haya probado en redes neuronales. Véase la ecuación 2.9 en la página 12 (aunque es necesario leer las páginas anteriores para entender la fórmula) de maths.dundee.ac.uk/nasc/na-reports/NA149_RF.pdf (no llamado ultra BFGS en el documento), que entonces necesitaría entrar en una versión "L" (memoria limitada) para ser ultra L-BFGS, en lugar de ultra BFGS. La versión no L se describe en el documento. Ultra BFGS es, básicamente, un BFGS modificado ("hot rod"): puede ser más rápido, pero puede ser un poco más salvaje.
1 votos
Según parece, sólo las redes neuronales feed-forward pueden entrenarse con retropropagación (porque las derivadas parciales son fáciles de calcular a partir de la regla de la cadena). Si se trata de redes neuronales más generales (redes neuronales recurrentes, redes neuronales de picos acoplados, etc.), lo normal es probar otro método (los algoritmos genéticos son los que conozco mejor).
0 votos
Como ya se ha mencionado, dependiendo de la arquitectura es posible prescindir de la retropropagación. Las NN de creencia profunda (DBN), las NN de correlación en cascada y las NN de enlace funcional vectorial aleatorio (RVFL) no utilizan la retropropagación en absoluto.