El Descenso de Gradiente Estocástico está precedido por la Aproximación Estocástica tal como fue descrito por primera vez por Robbins y Monro en su artículo, Un Método de Aproximación Estocástica. Posteriormente, Kiefer y Wolfowitz publicaron su artículo, *Estimación Estocástica del Máximo de una Función de Regresión* que es más reconocible para las personas familiarizadas con la variante de ML de Aproximación Estocástica (es decir, Descenso de Gradiente Estocástico), como señaló Mark Stone en los comentarios. En la década de los 60 hubo abundante investigación en esa dirección -- Dvoretzky, Powell, Blum todos publicaron resultados que hoy damos por sentado. Es un salto relativamente menor llegar del método Robbins y Monro al método Kiefer Wolfowitz, y simplemente un replanteamiento del problema para luego llegar al Descenso de Gradiente Estocástico (para problemas de regresión). Los artículos mencionados anteriormente son ampliamente citados como antecedentes del Descenso de Gradiente Estocástico, como se menciona en este artículo de revisión por Nocedal, Bottou, y Curtis, que proporciona una breve perspectiva histórica desde el punto de vista del Aprendizaje Automático.
Creo que Kushner y Yin en su libro Aproximación Estocástica y Algoritmos Recursivos y Aplicaciones sugieren que la noción había sido utilizada en teoría de control incluso en la década de los 40, pero no recuerdo si tenían una cita para eso o si era anecdótico, y tampoco tengo acceso a su libro para confirmar esto.
Herbert Robbins y Sutton Monro Un Método de Aproximación Estocástica The Annals of Mathematical Statistics, Vol. 22, No. 3. (Sep., 1951), pp. 400-407, DOI: 10.1214/aoms/1177729586
J. Kiefer y J. Wolfowitz Estimación Estocástica del Máximo de una Función de Regresión Ann. Math. Statist. Volumen 23, Número 3 (1952), 462-466, DOI: 10.1214/aoms/1177729392
Leon Bottou, Frank E. Curtis y Jorge Nocedal Métodos de Optimización para Aprendizaje Automático a Gran Escala, Informe Técnico, arXiv:1606.04838
3 votos
Aprendí sobre SGD antes del aprendizaje automático, por lo que debe haber sido antes de todo este asunto.
2 votos
Bueno, Cauchy seguramente inventó GD antes del aprendizaje automático, así que no me sorprendería que SGC también fuera inventado antes.
3 votos
Kiefer-Wolfowitz Aproximación Estocástica es.wikipedia.org/wiki/Aproximaci%C3%B3n_estoc%C3%A1stica está casi allí, excepto por no "simular" directamente para el gradiente.
3 votos
"Stochastic Gradient Descent" en ML es lo mismo que el "Método de Subgradiente Estocástico" en la optimización convexa. Los métodos de subgradiente fueron descubiertos durante 1960-1970 en la URSS, Moscú. Tal vez también en Estados Unidos. Vi un video donde Boris Polyak (él es autor del método del bola pesada) dijo que él (y todas las personas) comenzaron a pensar en los métodos de subgradiente en 1970. (youtube.com/watch?v=2PcidcPxvyk&t=1963s)...
1 votos
¿No codificó Jon Skeet en C# antes que Cauchy?