Se sabe que el algoritmo de descenso de gradiente estocástico en el que sólo se utiliza un gradiente ruidoso (ruido medio cero) para actualizar la estimación actual converge casi con seguridad al minimizador. Sin embargo, si uno está interesado sólo en la convergencia en la distribución (entiendo que este requisito es una noción más débil) y NO en la convergencia casi segura, ¿cómo deben elegirse los tamaños de los pasos para que sólo se garantice la convergencia distributiva y no la a.s.?
Respuestas
¿Demasiados anuncios?Creo que te refieres al algoritmo SPGD mencionado en los documentos de Vorontsov. Hasta donde yo sé, no existe una teoría matemática de fondo directamente para esto, pero existe teoría sobre SPSA que está muy cerca de SPGD, por ejemplo Spall "Introduction to Stochastic Search and Approximation" (que sólo habla de la convergencia a.s.). En Kushner y Yin, "Stochastic Approximation and Recursive Algorithms and Applications" hay algo de teoría sobre la convergencia más débil, pero más para el caso general de Kiefer-Wolfowitz-SA.
@peter Sarkoci tienes razón en que la pregunta es sobre el comportamiento de un algoritmo aleatorio. Sin embargo, me gustaría que el minimizador fuera una variable aleatoria no trivial en lugar de una constante. Cualquier v.r. con valor esperado como el minimizador real serviría. Por ejemplo, una gaussiana con media en el minimizador y baja varianza estaría bien.
Creo que para que esa condición se cumpla sólo depende de los posibles valores de los gradientes de la función original y no de la elección del tamaño de los pasos. ¿Estoy en lo cierto?