Ciertamente, esta afirmación no es siempre verdadero estrictamente como está escrito: dejar σ sea la función logística σ(x)=1/(1+exp(−x)) Consideremos una red (muy simple) de la forma fw(x)={σ(xw)w≠0sgn(x)w=0. Dejar W=[−1,1] , W es compacto, pero f0 no es Lipschitz, y cada una de las otras fϵ es Lipschitz pero con alguna constante que se hace infinita a medida que ϵ→0 .
Pero: considere una red más típica fLw dado recursivamente por f(0)w(x)=xf(ℓ)w(x)=σℓ(Wℓf(ℓ−1)w(x)+bℓ), donde w contiene todos los parámetros Wℓ , bℓ para cada capa ℓ (y cada σℓ es una función de activación Lipschitz fija). Entonces tenemos que ‖ Ahora bien, si \mathcal W es compacto, entonces hay alguna constante única D tal que \lVert W_\ell \rVert_\mathrm{op} \le D por cada w \in \mathcal W . * También hemos asumido que cada \lVert \sigma_\ell \rVert_\mathrm{Lip} es constante e independiente de w . Así, para cualquier w \in \mathcal W tenemos que \lVert f_w^{(L)} \rVert_\mathrm{Lip} \le \prod_{\ell=1}^L \lVert \sigma_{\ell} \rVert_\mathrm{Lip} \; \lVert W_\ell \rVert_\mathrm{op} \le D^L \prod_{\ell=1}^L \lVert \sigma_{\ell} \rVert_\mathrm{Lip} , una constante independiente de la elección particular de w .
* \mathcal W siendo compacta, suponiendo que tomemos decisiones razonables sobre la topología que entendemos por "compacta", implica que el conjunto de los W_i en \mathcal W también es compacto, lo que implica que la norma del operador está acotada.