Sí, es muy común el uso de ambos trucos. Que resolver los diferentes problemas y pueden trabajar bien juntos.
Una manera de pensar acerca de esto es que el peso de la descomposición de los cambios de la función que está siendo optimizado, mientras que los cambios de ritmo el camino que lleva a la óptima.
El peso de la caries, por la reducción de sus coeficientes hacia cero, se asegura de que usted encontrar un óptimo local con la pequeña magnitud de los parámetros. Usualmente, esto es crucial para evitar el sobreajuste (aunque otros tipos de restricciones en los pesos pueden trabajar demasiado). Como un beneficio adicional, también puede hacer que el modelo sea más fácil para optimizar, por lo que la función objetivo más convexa.
Una vez que se tiene una función objetivo, usted tiene que decidir cómo moverse en ella. Más brusco descenso por el gradiente es el método más sencillo, pero tienes razón que las fluctuaciones pueden ser un gran problema. La adición de impulso te ayuda a resolver ese problema. Si usted está trabajando con las actualizaciones por lotes (que es generalmente una mala idea con redes neuronales) Newton-tipo de medidas son otra opción. El nuevo "hot" enfoques se basan en Nesterov acelerada de gradiente y los llamados "de Hesse-Gratis" optimización.
Pero independientemente de cuál de estas reglas de actualización de utilizar (el impulso, Newton, etc.), sigue trabajando con la misma función objetivo, la cual es determinada por su función de error (por ejemplo, error cuadrado) y otras restricciones (por ejemplo, el peso de la caries). La cuestión principal a la hora de decidir cuál de estos a utilizar es la rapidez con la que llegaremos a un buen conjunto de pesos.