45 votos

¿Quién inventó el descenso de gradiente estocástico?

Estoy tratando de entender la historia de Descenso de gradiente y Descenso de gradiente estocástico. El descenso de gradiente fue inventado por Cauchy en 1847. Méthode générale pour la résolution des systèmes d'équations simultanées, pp. 536–538 Para obtener más información al respecto, mira aquí.

Desde entonces, los métodos de descenso de gradiente han seguido desarrollándose y no estoy familiarizado con su historia. En particular, estoy interesado en la invención del descenso de gradiente estocástico.

Una referencia que se pueda utilizar en un trabajo académico será más que bienvenida.

3 votos

Aprendí sobre SGD antes del aprendizaje automático, por lo que debe haber sido antes de todo este asunto.

2 votos

Bueno, Cauchy seguramente inventó GD antes del aprendizaje automático, así que no me sorprendería que SGC también fuera inventado antes.

3 votos

Kiefer-Wolfowitz Aproximación Estocástica es.wikipedia.org/wiki/Aproximaci%C3%B3n_estoc%C3%A1stica está casi allí, excepto por no "simular" directamente para el gradiente.

38voto

richcollins Puntos 514

El Descenso de Gradiente Estocástico está precedido por la Aproximación Estocástica tal como fue descrito por primera vez por Robbins y Monro en su artículo, Un Método de Aproximación Estocástica. Posteriormente, Kiefer y Wolfowitz publicaron su artículo, *Estimación Estocástica del Máximo de una Función de Regresión* que es más reconocible para las personas familiarizadas con la variante de ML de Aproximación Estocástica (es decir, Descenso de Gradiente Estocástico), como señaló Mark Stone en los comentarios. En la década de los 60 hubo abundante investigación en esa dirección -- Dvoretzky, Powell, Blum todos publicaron resultados que hoy damos por sentado. Es un salto relativamente menor llegar del método Robbins y Monro al método Kiefer Wolfowitz, y simplemente un replanteamiento del problema para luego llegar al Descenso de Gradiente Estocástico (para problemas de regresión). Los artículos mencionados anteriormente son ampliamente citados como antecedentes del Descenso de Gradiente Estocástico, como se menciona en este artículo de revisión por Nocedal, Bottou, y Curtis, que proporciona una breve perspectiva histórica desde el punto de vista del Aprendizaje Automático.

Creo que Kushner y Yin en su libro Aproximación Estocástica y Algoritmos Recursivos y Aplicaciones sugieren que la noción había sido utilizada en teoría de control incluso en la década de los 40, pero no recuerdo si tenían una cita para eso o si era anecdótico, y tampoco tengo acceso a su libro para confirmar esto.

Herbert Robbins y Sutton Monro Un Método de Aproximación Estocástica The Annals of Mathematical Statistics, Vol. 22, No. 3. (Sep., 1951), pp. 400-407, DOI: 10.1214/aoms/1177729586

J. Kiefer y J. Wolfowitz Estimación Estocástica del Máximo de una Función de Regresión Ann. Math. Statist. Volumen 23, Número 3 (1952), 462-466, DOI: 10.1214/aoms/1177729392

Leon Bottou, Frank E. Curtis y Jorge Nocedal Métodos de Optimización para Aprendizaje Automático a Gran Escala, Informe Técnico, arXiv:1606.04838

0 votos

¿Puedes dar referencias exactas? Y para la invención del SGD, parece ser en los años 40 pero no está claro quién y dónde.

0 votos

Ciertamente se cree ampliamente que fueron Robbins y Monro en 1951 con Algoritmos de Aproximación Estocástica. He escuchado que algo similar apareció en la literatura de teoría de control en los años 40 (como dije, creo que de Kushner y Yin pero no tengo ese libro a mano), pero aparte de ese lugar, todos parecen citar a Robbins y Monro, incluida la referencia de Nocedal et al. que enlacé.

0 votos

Entonces, nuestro candidato principal ahora es H. Robbins y S. Monro. Un Método de Aproximación Estocástica. The Annals of Mathematical Statistics, 22(3):400–407, 1951., según lo escrito en Nocedal, Bottou y Curtis en pdfs.semanticscholar.org/34dd/…

14voto

Vitaly Puntos 53

Ver

Rosenblatt F. El perceptrón: Un modelo probabilístico para el almacenamiento de información y organización en el cerebro. Revisión psicológica. Noviembre de 1958; 65(6):386.

No estoy seguro de si el SGD fue inventado antes en la literatura de optimización - probablemente lo fue - pero aquí creo que describe una aplicación del SGD para entrenar un perceptrón.

Si el sistema está bajo un estado de refuerzo positivo, entonces se agrega un AV positivo a los valores de todas las unidades A activas en los conjuntos de fuente de respuestas "encendidas", mientras que se agrega un AV negativo a las unidades activas en los conjuntos de fuente de respuestas "apagadas".

Él llama a estos "dos tipos de refuerzo".

También hace referencia a un libro con más información sobre estos "sistemas bivalentes".

Rosenblatt F. El perceptrón: una teoría de separabilidad estadística en sistemas cognitivos (Proyecto Para). Laboratorio Aeronáutico de Cornell; 1958.

1 votos

¡Un buen paso adelante, gracias! Encuentro la primera referencia en línea aquí citeseerx.ist.psu.edu/viewdoc/… Voy a revisarlo. Sin embargo, espero encontrar el algoritmo más explícito y formal.

3 votos

+1 para el comentario sobre la optimización. Dado que se utiliza en Aprendizaje Automático para hacer optimizaciones y dado que la optimización se convirtió en algo importante 40 o 50 años antes que el ML, y los ordenadores también entraron en escena aproximadamente al mismo tiempo, eso parece ser una buena pista.

0 votos

No entiendo por qué dices que esta cita describe SGD.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X