1 votos

¿Cuáles son los límites de los gradientes de reparametrización para variables aleatorias discretas? (Gumbel-softmax)

Sabemos que un enfoque para re-parametrizar los gradientes para la inferencia variacional es tomar el estimador Gumbel-softmax propuesto en [1] y [2].

En [3], que es una charla sobre IVS, D. Blei, en torno al minuto 29:31, menciona que no hay una re-parametrización para las variables discretas en el caso de las VI (también en las diapositivas). La charla es un año posterior a los documentos. Dado que me parece muy poco probable que algo así haya pasado desapercibido para un experto en la materia, ¿qué me estoy perdiendo?

Más concretamente, las preguntas que tengo son las siguientes:

  1. ¿Se considera que el truco de Gumbel softmax ha resuelto de forma satisfactoria la cuestión de los gradientes de baja varianza en el IVS con re-parametrización o no?
  2. ¿La afirmación de la charla es simplemente inexacta?

Esto no debe percibirse como una crítica a la charla, que, por cierto, recomiendo encarecidamente. Lo que pido es que se aclare mi confusión sobre el tema.

[1]: Reparametrización categórica con Gumbel-Softmax ( https://arxiv.org/pdf/1611.01144.pdf )

[2]: La Distribución Concreta: Una relajación continua de las variables aleatorias discretas ( https://arxiv.org/abs/1611.00712 )

[3]: Charla de D. Blei sobre IVS: https://www.youtube.com/watch?v=-H2N4tVDK7I

0voto

wiz-_-lee Puntos 6

¿Se considera que el truco de Gumbel softmax ha resuelto de forma satisfactoria la cuestión de los gradientes de baja varianza en el IVS con re-parametrización o no?

Creo que en [1], al principio se utiliza el truco de Gumbel-max, que es un método exacto para obtener muestras de la distribución categórica. Pero, el truco de Gumbel-max (ecuación 1 en el artículo [1]) introduce arg-max que necesita ser aproximado usando la función softmax (ecuación 2 en el artículo [1]). Básicamente, esta aproximación permite la diferenciación automática, pero también introduce un hiperparámetro $\tau$ que determina la varianza. Si $\tau$ es pequeño, la aproximación arg-max es precisa pero conduce a gradientes con alta varianza. Por el contrario, si $\tau$ es grande, la aproximación arg-max puede resultar inexacta (véase la figura 1 y la sección 2.1 del documento [1]). El documento introduce un método novedoso que resuelve el problema de retropropagación de gradiente para variables latentes discretas, pero creo que la solución no es perfecta (ya que hay una aproximación para arg-max)

2)¿La afirmación de la charla es simplemente inexacta?

Creo que la afirmación de la charla es correcta. La solución no es perfecta ni exacta como en Auto-Encoding Variational Bayes (Diederik P Kingma, Max Welling).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X