47 votos

Redes neuronales: cambio de peso en el impulso y el peso de la caries

Momentum $\alpha$ es utilizado para disminuir las fluctuaciones en los cambios de peso más iteraciones consecutivas:

$$\Delta\omega_i(t+1) = \omega_i - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),$$ donde $E({\bf w})$ es la función de error, ${\bf w}$ - el vector de pesos, $\eta$ - la tasa de aprendizaje.

El peso de la caries $\lambda$ penaliza a los cambios de peso:

$$\Delta\omega_i(t+1) = \omega_i - \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i$$

La pregunta es si tiene sentido combinar ambos trucos durante la propagación hacia atrás y qué efecto tendría?

$$\Delta\omega_i(t+1) = \omega_i - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i$$

51voto

Bou Puntos 1859

Sí, es muy común el uso de ambos trucos. Que resolver los diferentes problemas y pueden trabajar bien juntos.

Una manera de pensar acerca de esto es que el peso de la descomposición de los cambios de la función que está siendo optimizado, mientras que los cambios de ritmo el camino que lleva a la óptima.

El peso de la caries, por la reducción de sus coeficientes hacia cero, se asegura de que usted encontrar un óptimo local con la pequeña magnitud de los parámetros. Usualmente, esto es crucial para evitar el sobreajuste (aunque otros tipos de restricciones en los pesos pueden trabajar demasiado). Como un beneficio adicional, también puede hacer que el modelo sea más fácil para optimizar, por lo que la función objetivo más convexa.

Una vez que se tiene una función objetivo, usted tiene que decidir cómo moverse en ella. Más brusco descenso por el gradiente es el método más sencillo, pero tienes razón que las fluctuaciones pueden ser un gran problema. La adición de impulso te ayuda a resolver ese problema. Si usted está trabajando con las actualizaciones por lotes (que es generalmente una mala idea con redes neuronales) Newton-tipo de medidas son otra opción. El nuevo "hot" enfoques se basan en Nesterov acelerada de gradiente y los llamados "de Hesse-Gratis" optimización.

Pero independientemente de cuál de estas reglas de actualización de utilizar (el impulso, Newton, etc.), sigue trabajando con la misma función objetivo, la cual es determinada por su función de error (por ejemplo, error cuadrado) y otras restricciones (por ejemplo, el peso de la caries). La cuestión principal a la hora de decidir cuál de estos a utilizar es la rapidez con la que llegaremos a un buen conjunto de pesos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X