Redes neuronales: cambio de peso en el impulso y el peso de la caries

Question

Redes neuronales: cambio de peso en el impulso y el peso de la caries

Preguntado el 16 de Septiembre, 2013: Cuando se hizo la pregunta
5426 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Momentum $\alpha$ es utilizado para disminuir las fluctuaciones en los cambios de peso más iteraciones consecutivas:

$$\Delta\omega_i(t+1) = \omega_i - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),$$ donde $E({\bf w})$ es la función de error, ${\bf w}$ - el vector de pesos, $\eta$ - la tasa de aprendizaje.

El peso de la caries $\lambda$ penaliza a los cambios de peso:

$$\Delta\omega_i(t+1) = \omega_i - \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i$$

La pregunta es si tiene sentido combinar ambos trucos durante la propagación hacia atrás y qué efecto tendría?

$$\Delta\omega_i(t+1) = \omega_i - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i$$

Preguntado el 16 de Septiembre, 2013 por Oleg Shirokikh

Answer 1

1 Respuestas

Answer 2

51voto

Bou Puntos 1859

Sí, es muy común el uso de ambos trucos. Que resolver los diferentes problemas y pueden trabajar bien juntos.

Una manera de pensar acerca de esto es que el peso de la descomposición de los cambios de la función que está siendo optimizado, mientras que los cambios de ritmo el camino que lleva a la óptima.

El peso de la caries, por la reducción de sus coeficientes hacia cero, se asegura de que usted encontrar un óptimo local con la pequeña magnitud de los parámetros. Usualmente, esto es crucial para evitar el sobreajuste (aunque otros tipos de restricciones en los pesos pueden trabajar demasiado). Como un beneficio adicional, también puede hacer que el modelo sea más fácil para optimizar, por lo que la función objetivo más convexa.

Una vez que se tiene una función objetivo, usted tiene que decidir cómo moverse en ella. Más brusco descenso por el gradiente es el método más sencillo, pero tienes razón que las fluctuaciones pueden ser un gran problema. La adición de impulso te ayuda a resolver ese problema. Si usted está trabajando con las actualizaciones por lotes (que es generalmente una mala idea con redes neuronales) Newton-tipo de medidas son otra opción. El nuevo "hot" enfoques se basan en Nesterov acelerada de gradiente y los llamados "de Hesse-Gratis" optimización.

Pero independientemente de cuál de estas reglas de actualización de utilizar (el impulso, Newton, etc.), sigue trabajando con la misma función objetivo, la cual es determinada por su función de error (por ejemplo, error cuadrado) y otras restricciones (por ejemplo, el peso de la caries). La cuestión principal a la hora de decidir cuál de estos a utilizar es la rapidez con la que llegaremos a un buen conjunto de pesos.

Respondido el 16 de Septiembre, 2013 por Bou (1859 Puntos )

Redes neuronales: cambio de peso en el impulso y el peso de la caries

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Redes neuronales: cambio de peso en el impulso y el peso de la caries

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: