32 votos

¿Cómo puede estocástico de gradiente de la pendiente de evitar el problema de un mínimo local?

Sé que estocástico de gradiente de la pendiente tiene comportamiento aleatorio, pero no sé por qué.
¿Hay alguna explicación acerca de esto?

26voto

Jiang-min Zhang Puntos 1350

El gradiente estocástico (SG) el algoritmo se comporta como un recocido simulado (SA) del algoritmo, donde el ritmo de aprendizaje de la SG está relacionada con la temperatura de SA. La aleatoriedad o el ruido introducido por SG permite escapar de los mínimos locales para llegar a un mejor nivel mínimo. Por supuesto, depende de lo rápido que disminuir el ritmo de aprendizaje. Lea la sección 4.2, de Gradiente Estocástico de Aprendizaje en Redes Neuronales (pdf), en donde se explica en más detalle.

4voto

Charles Ma Puntos 12330

En el estocástico gradiente de descenso de los parámetros son estimados para cada observación, se opuso a la totalidad de la muestra en regular gradiente de la pendiente (lote de gradiente de la pendiente). Esto es lo que le da una gran cantidad de aleatoriedad. El camino de la estocástico de gradiente de la pendiente se pasea a lo largo de más lugares, y por lo tanto es más probable que "saltan" de un mínimo local, y encontrar un mínimo global (Nota*). Sin embargo, el estocástico gradiente de la pendiente todavía puede quedar atascado en el mínimo local.

Nota: es común Que para mantener el ritmo de aprendizaje constante, en este caso estocástico de gradiente de la pendiente no converge; sólo se pasea por el mismo punto. Sin embargo, si la tasa de aprendizaje disminuye con el tiempo, dicen, es inversamente relacionado con el número de iteraciones, a continuación, estocástico de gradiente de la pendiente convergerían.

3voto

David Puntos 31

Como ya se mencionó en las respuestas anteriores, el estocástico gradiente de la pendiente tiene una mucho más ruidoso superficie de error ya que se están evaluando en cada una de las muestras de forma iterativa. Mientras que usted está tomando un paso hacia el mínimo global en el lote de gradiente de la pendiente en cada época (pase al conjunto de entrenamiento), los pasos individuales de su estocástico gradiente gradiente de descenso no debe apuntar hacia el mínimo global, dependiendo de la cotizacion de la muestra.

Para visualizar esta utilizando una de dos dimensiones ejemplo, aquí están algunas de las figuras y los dibujos de Andrew Ng, de la máquina de aprendizaje de la clase.

Primer gradiente de la pendiente:

enter image description here

Segundo, el estocástico gradiente de la pendiente:

enter image description here

El círculo rojo en la parte inferior de la figura se ilustran que el estocástico gradiente de descenso será "mantener la actualización de" en algún lugar en el área alrededor de la global mínimo, si usted está usando un constante ritmo de aprendizaje.

Por lo tanto, aquí hay algunos consejos prácticos si usted está usando estocástico de gradiente de la pendiente:

1) reproducción aleatoria del conjunto de entrenamiento antes de cada época (o de la iteración en el "estándar" de la variante)

2) el uso de una adaptación de la tasa de aprendizaje para "templar" más cerca del mínimo global

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X