En realidad, quería preguntarle cómo puedo definir la condición de terminación del descenso del gradiente.
¿Puedo detenerlo en base al número de iteraciones, es decir, considerando los valores de los parámetros para, digamos, 100 iteraciones?
O debería esperar de tal manera que el diferente valor de los dos parámetros, "nuevo" y "viejo", sea muy pequeño en el orden de digamos $10^{-6}$ ? Esto definitivamente tomará mucho tiempo.
¿Cuál es la mejor manera? En mi caso, incluso una iteración lleva un tiempo significativo. En esta situación, si espero la segunda condición, puede que incluso tarde semanas, supongo.
Así que, ¿qué enfoque debería usar? ¿Cómo abordar este escenario?