¿Por qué es necesario el "recorte de peso" para las GAN de Wasserstein?

Question

¿Por qué es necesario el "recorte de peso" para las GAN de Wasserstein?

Preguntado el 14 de Enero, 2020: Cuando se hizo la pregunta
1038 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy leyendo el documento original sobre el GAN de Wasserstein:

https://arxiv.org/pdf/1701.07875.pdf

y me encontré con este párrafo:

No entiendo la afirmación: " $\mathcal{W}$ es compacto implica que todas las funciones $f_w$ será $K$ -Lipschitz para algunos $K$ que sólo depende de $\mathcal{W}$ ". En este caso, se trata de una familia de funciones $\{f_w\}_{w \in W}$ . ¿Por qué el índice que viene de un espacio compacto significa que las funciones serán $K$ -Lipschitz continua? Si puedo entender esto, entonces puedo entender por qué necesitamos recortar los pesos a un espacio compacto como una caja.

Preguntado el 14 de Enero, 2020 por QuantStats

Answer 1

1 Respuestas

Answer 2

4voto

Bauna Puntos 176

Ciertamente, esta afirmación no es siempre verdadero estrictamente como está escrito: dejar $\sigma$ sea la función logística $\sigma(x) = 1 / (1 + \exp(-x))$ Consideremos una red (muy simple) de la forma $f_w(x) = \begin{cases} \sigma\left(\frac{x}{w}\right) & w \ne 0 \\ \mathrm{sgn}(x) & w = 0 \end{cases} .$ Dejar $\mathcal W = [-1, 1]$ , $\mathcal W$ es compacto, pero $f_0$ no es Lipschitz, y cada una de las otras $f_\epsilon$ es Lipschitz pero con alguna constante que se hace infinita a medida que $\epsilon \to 0$ .

Pero: considere una red más típica $f_w^L$ dado recursivamente por $f_w^{(0)}(x) = x \qquad f_w^{(\ell)}(x) = \sigma_\ell(W_\ell f_w^{(\ell-1)}(x) + b_\ell) ,$ donde $w$ contiene todos los parámetros $W_\ell$ , $b_\ell$ para cada capa $\ell$ (y cada $\sigma_\ell$ es una función de activación Lipschitz fija). Entonces tenemos que $\lVert f_w^{(L)} \rVert_\mathrm{Lip} \le \lVert \sigma_{L} \rVert_\mathrm{Lip} \; \lVert W_L \rVert_\mathrm{op} \lVert f_w^{(L-1)} \rVert_\mathrm{Lip} \le \prod_{\ell=1}^L \lVert \sigma_{\ell} \rVert_\mathrm{Lip} \; \lVert W_\ell \rVert_\mathrm{op} .$ Ahora bien, si $\mathcal W$ es compacto, entonces hay alguna constante única $D$ tal que $\lVert W_\ell \rVert_\mathrm{op} \le D$ por cada $w \in \mathcal W$ . * También hemos asumido que cada $\lVert \sigma_\ell \rVert_\mathrm{Lip}$ es constante e independiente de $w$ . Así, para cualquier $w \in \mathcal W$ tenemos que $\lVert f_w^{(L)} \rVert_\mathrm{Lip} \le \prod_{\ell=1}^L \lVert \sigma_{\ell} \rVert_\mathrm{Lip} \; \lVert W_\ell \rVert_\mathrm{op} \le D^L \prod_{\ell=1}^L \lVert \sigma_{\ell} \rVert_\mathrm{Lip} ,$ una constante independiente de la elección particular de $w$ .

* $\mathcal W$ siendo compacta, suponiendo que tomemos decisiones razonables sobre la topología que entendemos por "compacta", implica que el conjunto de los $W_i$ en $\mathcal W$ también es compacto, lo que implica que la norma del operador está acotada.

Respondido el 22 de Enero, 2020 por Bauna (176 Puntos )

¿Por qué es necesario el "recorte de peso" para las GAN de Wasserstein?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué es necesario el "recorte de peso" para las GAN de Wasserstein?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: