Hay alguna literatura que examina la elección de minibatch tamaño al realizar estocástico de gradiente de la pendiente? En mi experiencia, parece ser empírico de elección, que se encuentra generalmente a través de la validación cruzada o utilizando diferentes reglas de oro.
Es una buena idea para incrementar lentamente el minibatch tamaño como la validación de error disminuye? ¿Qué efectos tendría esto en la generalización de error?
Estoy mejor-off mediante un extremadamente pequeño minibatch y la actualización de mi modelo de cientos de miles de veces? Estaría mejor con un número equilibrado en algún lugar entre el extremadamente pequeño, y el lote?
Debo escalar el tamaño de mi minibatch con el tamaño del conjunto de datos, o el número esperado de características en el conjunto de datos?
Yo, obviamente, tiene un montón de preguntas acerca de la implementación de minibatch planes de aprendizaje. Desafortunadamente, la mayoría de los trabajos que he leído realmente no especificar cómo se eligió este hyperparameter. He tenido un poco de éxito de autores como Yann LeCun, especialmente de los Trucos del Comercio de la colección de documentos. Sin embargo, todavía no he visto a estas preguntas se ha abordado plenamente. ¿Alguien tiene alguna recomendación para los papeles, o asesoramiento en cuanto a los criterios que puede utilizar para determinar las buenas minibatch tamaños cuando tratando de aprender características?