2 votos

¿Qué ventajas tiene minimizar la divergencia de Wasserstein en lugar de la divergencia de Pearson en un GAN?

Las Redes Generativas Adversariales (GAN) son modelos generativos que entrenan conjuntamente dos redes neuronales: una discriminador que aprende a distinguir los datos reales de los generados, y un generador que aprende a producir datos sintéticos lo suficientemente realistas como para engañar al discriminador.

Se han propuesto muchos tipos de GAN, que generalmente minimizan funciones de coste ligeramente diferentes. Por ejemplo, GANs de mínimos cuadrados minimizar la divergencia de Pearson entre los datos reales y los falsos, mientras Wasserstein GANs minimizar la divergencia de Wasserstein.

Me pregunto cuáles son las ventajas de utilizar una divergencia en lugar de la otra. Esto también plantea preguntas como: ¿podemos utilizar penalización del gradiente con GANs de mínimos cuadrados?

2voto

Emir Ceyani Puntos 31

Para su última pregunta, ¡Sí! También se puede utilizar la penalización de gradiente con LSGAN y se puede leer este . La penalización del gradiente es un truco e independiente de la divergencia/distancia que se utilice.

Sin embargo, la primera es más larga. Para reiterar, WGAN se entrena con Distancia Wasserstein no a la divergencia. Esto es importante ya que la divergencia es una noción más débil de la distancia debido a que la divergencia no es simétrica. Ej. $KL(p || q) \neq KL(q || p)$ y, de hecho, ¡explota diferentes propiedades!

Voy a explicarlo como en el orden cronológico para entender por qué WGAN es importante.

Antes de WGAN, los GANs (Vanilla GAN, DCGAN , LSGAN y muchos otros GANs antes de WGAN) , fueron entrenados para minimizar un f-divergencia (KL, JSD, Pearson...). Si tomamos la derivada de JSD con respecto a los parámetros del generador mientras las distribuciones de datos reales y del generador están alejadas entre sí, el gradiente converge a cero. ¡Muy mal generador! La divergencia de Pearson proporciona gradiente a los generadores incluso si las distribuciones están muy alejadas.

Wasserstein O la métrica de Kantorovich-Rubinstein O la distancia de los desplazamientos de la tierra es la distancia entre dos distribuciones de probabilidad continuas definidas como

$$ W(p_r, p_g) = \inf_{\gamma \sim \Pi(p_r, p_g)} \mathbb{E}_{(x, y) \sim \gamma}[\| x-y \|] $$

donde $\Pi(p_r, p_g)$ es el conjunto de todas las posibles distribuciones de probabilidad conjuntas entre la distribución de datos reales y la del generador. $\gamma \sim \Pi(p_r, p_g)$ define

Entonces, ¿qué hace a Wasserstein diferente de los demás? Refiriéndonos al documento de WGAN, digamos que tenemos dos distribuciones, $\textit{P}$ y $\textit{Q}$ :

$$ \forall (x, y) \in P, x = 0 \text{ and } y \sim U(0, 1)\\ \forall (x, y) \in Q, x = \theta, 0 \leq \theta \leq 1 \text{ and } y \sim U(0, 1)\\$$ Cuando $\theta \neq 0$ No hay coincidencia:

pdfs ( ! enter image description here ] 1 )

$$ \begin{aligned} D_{KL}(P \| Q) &= \sum_{x=0, y \sim U(0, 1)} 1 \cdot \log\frac{1}{0} = +\infty \\ D_{KL}(Q \| P) &= \sum_{x=\theta, y \sim U(0, 1)} 1 \cdot \log\frac{1}{0} = +\infty \\ D_{JS}(P, Q) &= \frac{1}{2}(\sum_{x=0, y \sim U(0, 1)} 1 \cdot \log\frac{1}{1/2} + \sum_{x=0, y \sim U(0, 1)} 1 \cdot \log\frac{1}{1/2}) = \log 2\\ W(P, Q) &= |\theta| \end{aligned} $$

Wasserstein proporciona una medida suave incluso si las distribuciones están alejadas entre sí. Esto ayuda a que el procedimiento de aprendizaje sea estable, eliminando el colapso de los modos y mejorando la clase de variedades que se pueden aprender (ver este ).

Sin embargo, la gente no utiliza la métrica de Wasserstein tal y como es debido a la intratabilidad del cálculo del ínfimo. Usando la dualidad Kantorovich-Rubinstein: $$ W(p_r, p_g) = \frac{1}{K} \sup_{\| f \|_L \leq K} \mathbb{E}_{x \sim p_r}[f(x)] - \mathbb{E}_{x \sim p_g}[f(x)] $$ para medir el mínimo límite superior de la función. La función tiene que ser K-Lipschitz continua (fuertemente asesora este para leer). .

Saltándonos algunas formalidades, digamos que nuestra función es de una familia de funciones continuas K-Lipschitz, $\{ f_w \}_{w \in W}$ parametrizado por $w$ La distancia de Wasserstein se mide por :

$$ L(p_r, p_g) = W(p_r, p_g) = \max_{w \in W} \mathbb{E}_{x \sim p_r}[f_w(x)] - \mathbb{E}_{z \sim p_r(z)}[f_w(g_\theta(z))] $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X