¿Es posible entrenar una red neuronal sin retropropagación?

Question

¿Es posible entrenar una red neuronal sin retropropagación?

Preguntado el 20 de Septiembre, 2016: Cuando se hizo la pregunta
4133 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Muchos libros y tutoriales sobre redes neuronales dedican mucho tiempo al algoritmo de retropropagación, que es esencialmente una herramienta para calcular el gradiente.

Supongamos que estamos construyendo un modelo con ~10K parámetros / pesos. Es posible ejecutar la optimización utilizando algunos algoritmos de optimización sin gradiente?

Creo que calcular el gradiente numérico sería demasiado lento, pero ¿qué tal otros métodos como Nelder-Mead, Simulated Annealing o un Algoritmo Genético?

Todos los algoritmos sufrirían mínimos locales, ¿por qué obsesionarse con el gradiente?

Preguntado el 20 de Septiembre, 2016 por David

3 votos

Posible duplicado de En las redes neuronales, ¿por qué utilizar métodos de gradiente en lugar de otras metaheurísticas?

Comentado el 20 de Septiembre, 2016 por Franck Dernoncourt

6 votos

@FranckDernoncourt Interpreté la otra pregunta como "¿por qué no utilizar global de optimización para entrenar redes neuronales?", mientras que ésta es más bien "¿por qué no utilizar sin derivados optimzers ...".

Comentado el 20 de Septiembre, 2016 por GeoMatt22

0 votos

@GeoMatt22 Ya veo, voto retirado, dejo que el OP decida :)

Comentado el 20 de Septiembre, 2016 por Franck Dernoncourt

Mostrar 5 comentarios más

Answer 1

1 Respuestas

Answer 2

3voto

user39770 Puntos 9

Ya que se trata de una pregunta comunitaria, he pensado en añadir otra respuesta. "Back Propagation" es simplemente el algoritmo de descenso de gradiente. Se trata de utilizar sólo la primera derivada de la función para la que uno está tratando de encontrar los mínimos o máximos locales. Hay otro método llamado método de Newton o Newton-Raphson que implica el cálculo del hessiano y por lo tanto utiliza segundas derivadas. Puede tener éxito en casos en los que falla el descenso por gradiente. Me han dicho otras personas más informadas que yo, y sí, esto es una apelación de segunda mano a la autoridad, que no se utiliza en las redes neuronales porque calcular todas las segundas derivadas es demasiado costoso en términos de computación.

Respondido el 26 de Agosto, 2017 por user39770 (9 Puntos )

¿Es posible entrenar una red neuronal sin retropropagación?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Es posible entrenar una red neuronal sin retropropagación?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: