Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

3 votos

¿Por qué es necesario el "recorte de peso" para las GAN de Wasserstein?

Estoy leyendo el documento original sobre el GAN de Wasserstein:

https://arxiv.org/pdf/1701.07875.pdf

y me encontré con este párrafo:

enter image description here

No entiendo la afirmación: " W es compacto implica que todas las funciones fw será K -Lipschitz para algunos K que sólo depende de W ". En este caso, se trata de una familia de funciones {fw}wW . ¿Por qué el índice que viene de un espacio compacto significa que las funciones serán K -Lipschitz continua? Si puedo entender esto, entonces puedo entender por qué necesitamos recortar los pesos a un espacio compacto como una caja.

4voto

Bauna Puntos 176

Ciertamente, esta afirmación no es siempre verdadero estrictamente como está escrito: dejar σ sea la función logística σ(x)=1/(1+exp(x)) Consideremos una red (muy simple) de la forma fw(x)={σ(xw)w0sgn(x)w=0. Dejar W=[1,1] , W es compacto, pero f0 no es Lipschitz, y cada una de las otras fϵ es Lipschitz pero con alguna constante que se hace infinita a medida que ϵ0 .

Pero: considere una red más típica fLw dado recursivamente por f(0)w(x)=xf()w(x)=σ(Wf(1)w(x)+b), donde w contiene todos los parámetros W , b para cada capa (y cada σ es una función de activación Lipschitz fija). Entonces tenemos que Ahora bien, si \mathcal W es compacto, entonces hay alguna constante única D tal que \lVert W_\ell \rVert_\mathrm{op} \le D por cada w \in \mathcal W . * También hemos asumido que cada \lVert \sigma_\ell \rVert_\mathrm{Lip} es constante e independiente de w . Así, para cualquier w \in \mathcal W tenemos que \lVert f_w^{(L)} \rVert_\mathrm{Lip} \le \prod_{\ell=1}^L \lVert \sigma_{\ell} \rVert_\mathrm{Lip} \; \lVert W_\ell \rVert_\mathrm{op} \le D^L \prod_{\ell=1}^L \lVert \sigma_{\ell} \rVert_\mathrm{Lip} , una constante independiente de la elección particular de w .


* \mathcal W siendo compacta, suponiendo que tomemos decisiones razonables sobre la topología que entendemos por "compacta", implica que el conjunto de los W_i en \mathcal W también es compacto, lo que implica que la norma del operador está acotada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X