La respuesta de Franck es completamente correcta. Si prestas más atención a su mensaje, te darás cuenta de que estás diciendo lo mismo que él, solo estás omitiendo un aspecto importante.
En primer lugar, un época se refiere en efecto a un pase completo (hacia adelante y hacia atrás) de todos los ejemplos de entrenamiento. Este no debería ser un tema discutible.
En segundo lugar, al usar descenso de gradiente mini-batch, los parámetros son actualizados efectivamente en cada pase. Franck y tú ambos dijeron lo mismo, solo de manera diferente. Sin embargo, creo que tu confusión proviene del hecho de que, al usar descenso de gradiente mini-batch (o estocástico), se requieren múltiples iteraciones para completar una época. Aspecto claramente destacado por Franck.
Para mayor claridad, si hay n muestras de entrenamiento, se requieren n / (# de mini-batches) iteraciones para que el GD de mini-batch complete una época, n iteraciones para SGD, y evidentemente 1 para GD de batch.
Creo que, en general, este es un tema confuso y es importante que otros tengan una comprensión clara del significado de un lote, mini-lote, época, pase e iteración. Por lo tanto, mensajes confusos como el tuyo deberían ser resaltados y corregidos.
0 votos
Posible duplicado de Tradeoff batch size vs. number of iterations to train a neural network
0 votos
La pregunta se centra más en la convención, es decir, si alguien afirma que ha entrenado una red durante 10 épocas utilizando mini-lotes de 20, ¿esto significa que ha habido 10 * N actualizaciones de peso, o 10 * N / 20?
0 votos
Entiendo, disculpa por la confusión, tal vez stats.stackexchange.com/a/164875/12359 responde a tu pregunta.