Actualmente estoy un poco confundido por cómo el descenso de gradiente de mini-batch puede quedarse atrapado en un punto de silla.
La solución podría ser tan trivial que no lo entiendo.
Obtienes una nueva muestra en cada época, y calcula un nuevo error en función de un nuevo lote, por lo que la función de costo es estática solo para cada lote, lo que significa que el gradiente también debería cambiar para cada mini-batch... pero ¿según esto una implementación vanilla tendría problemas con los puntos de silla?
Otro desafío clave para minimizar funciones de error altamente no convexas comunes para redes neuronales es evitar quedar atrapado en sus numeros mínimos locales subóptimos. Dauphin et al. [19] argumentan que el la dificultad surge de hecho no de los mínimos locales sino de los puntos de silla, es decir, puntos donde una dimensión sube y otra baja. Estos puntos de silla suelen estar rodeados por un meseta del mismo error, lo que hace que sea notoriamente difícil para el SGD escapar, ya que el el gradiente está cerca de cero en todas las dimensiones.
¡Significa que especialmente el SGD tendría una clara ventaja contra los puntos de silla, ya que fluctúa hacia su convergencia... Las fluctuaciones y el muestreo aleatorio, y la función de costo siendo diferente para cada época deberían ser razones suficientes para no quedar atrapado en uno.
Para el descenso de gradiente de lote completo, ¿tiene sentido que pueda quedar atrapado en un punto de silla, ya que la función de error es constante.
Estoy un poco confundido en las otras dos partes.
1 votos
Moti lo entiende. El punto de silla con pendientes muy altas y rodeado de pendiente cero lanza un descenso de gradiente con pasos grandes hacia "las tierras baldías" de las que no puede recuperarse. Piensa en buscar un pozo en una llanura essencialmente plana. Ahora piensa en el pozo como seco, y con un montículo de hormigas en el centro. Un descenso de gradiente que aterriza en el montículo de hormigas, pero no en la cima exacta, va a disparar la búsqueda radialmente. Ahora imagin que el tamaño del paso para la búsqueda es mil veces más grande que el diámetro del pozo. Si la búsqueda encuentra el pozo, el montículo de hormigas la dispara hacia Montana.
0 votos
Estoy confundido por lo que estás preguntando. ¿Estás confundido de por qué SGD no puede quedar atrapado en un punto de silla debido al ruido inherente que tiene SGD, por lo que según tú debería ser capaz de escapar? (a diferencia de si fuera GD por lotes completo, en ese caso si el gradiente es cero y no hay ruido entonces no puede escapar, ¿es eso lo que estás preguntando?)