Tengo un modelo de red neuronal profunda y necesito entrenarlo en mi conjunto de datos que consta de unos 100.000 ejemplos, mis datos de validación contienen unos 1000 ejemplos. Debido a que se necesita tiempo para entrenar cada ejemplo (alrededor de 0,5s para cada ejemplo) y con el fin de evitar el sobreajuste, me gustaría aplicar la parada temprana para evitar el cálculo innecesario. Pero no estoy seguro de cómo entrenar correctamente mi red neuronal con parada temprana, hay varias cosas que no entiendo bien ahora:
-
¿Cuál sería una buena frecuencia de validación? ¿Debo comprobar mi modelo en los datos de validación al final de cada época? (Mi tamaño de lote es 1)
-
¿Es posible que las primeras épocas den un resultado peor antes de que empiece a converger a un valor mejor? En ese caso, ¿deberíamos entrenar nuestra red durante varias épocas antes de comprobar si se detiene pronto?
-
¿Cómo manejar el caso cuando la pérdida de validación puede subir y bajar? En ese caso, una parada temprana podría impedir que mi modelo siguiera aprendiendo, ¿verdad?
Gracias de antemano.