convergencia en la distribución del descenso de gradiente estocástico.

Question

convergencia en la distribución del descenso de gradiente estocástico.

Preguntado el 24 de Mayo, 2011: Cuando se hizo la pregunta
603 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Se sabe que el algoritmo de descenso de gradiente estocástico en el que sólo se utiliza un gradiente ruidoso (ruido medio cero) para actualizar la estimación actual converge casi con seguridad al minimizador. Sin embargo, si uno está interesado sólo en la convergencia en la distribución (entiendo que este requisito es una noción más débil) y NO en la convergencia casi segura, ¿cómo deben elegirse los tamaños de los pasos para que sólo se garantice la convergencia distributiva y no la a.s.?

Preguntado el 24 de Mayo, 2011 por Hentie Potgieter

Answer 1

3 Respuestas

Answer 2

1voto

Max Cantor Puntos 4486

Creo que te refieres al algoritmo SPGD mencionado en los documentos de Vorontsov. Hasta donde yo sé, no existe una teoría matemática de fondo directamente para esto, pero existe teoría sobre SPSA que está muy cerca de SPGD, por ejemplo Spall "Introduction to Stochastic Search and Approximation" (que sólo habla de la convergencia a.s.). En Kushner y Yin, "Stochastic Approximation and Recursive Algorithms and Applications" hay algo de teoría sobre la convergencia más débil, pero más para el caso general de Kiefer-Wolfowitz-SA.

Respondido el 27 de Junio, 2011 por Max Cantor (4486 Puntos )

Answer 3

0voto

arul Puntos 10719

Sí, eso es exactamente lo que estoy buscando.

Respondido el 27 de Mayo, 2011 por arul (10719 Puntos )

Answer 4

0voto

arul Puntos 10719

@peter Sarkoci tienes razón en que la pregunta es sobre el comportamiento de un algoritmo aleatorio. Sin embargo, me gustaría que el minimizador fuera una variable aleatoria no trivial en lugar de una constante. Cualquier v.r. con valor esperado como el minimizador real serviría. Por ejemplo, una gaussiana con media en el minimizador y baja varianza estaría bien.

Creo que para que esa condición se cumpla sólo depende de los posibles valores de los gradientes de la función original y no de la elección del tamaño de los pasos. ¿Estoy en lo cierto?

Respondido el 29 de Mayo, 2011 por arul (10719 Puntos )

convergencia en la distribución del descenso de gradiente estocástico.

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

convergencia en la distribución del descenso de gradiente estocástico.

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: