3 votos

¿Qué significa $ \|f\|_{K^{\infty}} $ en este contexto?

El siguiente extracto del documento Matemáticas modernas del aprendizaje profundo página 23. Para simplificar, he ocultado los detalles.

La última línea es $$\min _{f \in \mathcal{H}_{K} \infty}\|f\|_{K^{\infty}} \quad \text { s.t. } \quad f\left(x^{(i)}\right)=y^{(i)}$$ Es $K^{\infty}$ un núcleo cuando $t\rightarrow{\infty}$ ? ¿Cómo se $\|\cdot\|_{K^{\infty}}$ definido? Si es posible, también quiero saber cómo $C(t)$ se deduce en el texto siguiente.

Consideramos un escenario de predicción unidimensional en el que la pérdida $\mathcal{L}(f,(x, y))$ depende de $x \in \mathcal{X}$ sólo a través de $f(x) \in \mathcal{Y}$ es decir, existe una función $\ell: \mathcal{Y} \times \mathcal{Y} \rightarrow \mathbb{R}$ tal que $$\mathcal{L}(f,(x, y))=\ell(f(x), y)$$ Por ejemplo, en el caso de la pérdida cuadrática tenemos que $\ell(\hat{y}, y)=(\hat{y}-y)^{2}$ . Además $\Phi$ sea una NN con arquitectura $(N, \varrho)=\left(\left(d, N_{1}, \ldots, N_{L-1}, 1\right), \varrho\right)$ y que $\Theta_{0}$ ser un $\mathbb{R}^{P(N)}-$ variable aleatoria. Para simplificar, evolucionamos los parámetros de $\Phi$ según la versión continua del descenso de gradiente, denominada flujo de gradiente, dada por $$\frac{\mathrm{d} \Theta(t)}{\mathrm{d} t}=-\nabla_{\theta} \widehat{\mathcal{R}}_{s}(\Phi(\cdot, \Theta(t)))=-\frac{1}{m} \sum_{i=1}^{m} \nabla_{\theta} \Phi\left(x^{(i)}, \Theta(t)\right) D_{i}(t), \quad \Theta(0)=\Theta_{0}$$ donde $D_{i}(t):=\left.\frac{\partial \ell\left(\hat{y}, y^{(i)}\right)}{\partial \hat{y}}\right|_{\hat{y}=\Phi\left(x^{(i)}, \Theta(t)\right)}$ es la derivada de la pérdida con respecto a la predicción en la característica de entrada $x^{(i)}$ a la vez $t \in[0, \infty)$ . La regla de la cadena implica la siguiente dinámica de realización de la NN $$\frac{\mathrm{d} \Phi(\cdot, \Theta(t))}{\mathrm{d} t}=-\frac{1}{m} \sum_{i=1}^{m} K_{\Theta(t)}\left(\cdot, x^{(i)}\right) D_{i}(t)$$ y su riesgo empírico $$\frac{\mathrm{d} \widehat{\mathcal{R}}_{s}(\Phi(\cdot, \Theta(t))}{\mathrm{d} t}=-\frac{1}{m^{2}} \sum_{i=1}^{m} \sum_{j=1}^{m} D_{i}(t) K_{\Theta(t)}\left(x^{(i)}, x^{(j)}\right) D_{j}(t)$$ donde $K_{\theta}, \theta \in \mathbb{R}^{P(N)}$ es el llamado núcleo neural tangente (NTK) $$K_{\theta}: \mathbb{R}^{d} \times \mathbb{R}^{d} \rightarrow \mathbb{R}, \quad K_{\theta}\left(x_{1}, x_{2}\right)=\left(\nabla_{\theta} \Phi\left(x_{1}, \theta\right)\right)^{T} \nabla_{\theta} \Phi\left(x_{2}, \theta\right)$$ Ahora dejemos que $\sigma_{w}, \sigma_{b} \in(0, \infty)$ y supongamos que la inicialización $\Theta_{0}$ consta de entradas independientes, donde las entradas correspondientes a la matriz de pesos y al vector de sesgo en el $\ell$ -ésima capa siguen una distribución normal con media cero y varianzas $\sigma_{w}^{2} / N_{\ell}$ y $\sigma_{b}^{2}$ respectivamente. Bajo supuestos débiles sobre la función de activación, el teorema del límite central implica que las preactivaciones convergen a procesos gaussianos centrados i.i.d. en el límite de anchura infinita $N_{1}, \ldots, N_{L-1} \rightarrow \infty$ Ver $\left[\mathrm{LBN}^{+} 18, \mathrm{MHR}^{+} 18\right] .$ Del mismo modo, también $K_{\Theta_{0}}$ converge a un núcleo determinista $K^{\infty}$ que permanece constante en el tiempo y sólo depende de la función de activación $\varrho$ la profundidad $L$ y los parámetros de inicialización $\sigma_{w}$ y $\sigma_{b}\left[\right.$ JGH18, $\mathrm{ADH}^{+} 19$ Yan19, LXS $^{+} 20$ ]. Así, dentro del límite de anchura infinita, el flujo de gradiente en los parámetros NN como en $(2.1)$ es equivalente al flujo de gradiente funcional en el espacio de Hilbert del núcleo reproductor $\left(\mathcal{H}_{K^{\infty}},\|\cdot\|_{K^{\infty}}\right)$ correspondiente a $K^{\infty}$ Ver $(2.2)$ . Según (2.3), el riesgo empírico converge a un mínimo global siempre que el núcleo se evalúe en las características de entrada, $\bar{K}^{\infty}:=\left(K^{\infty}\left(x^{(i)}, x^{(j)}\right)\right)_{i, j=1}^{m} \in \mathbb{R}^{m \times m}$ es definida positiva (véase, por ejemplo, [JGH18, DLL $\left.^{+} 19\right]$ para condiciones adecuadas) y el $\ell\left(\cdot, y^{(i)}\right)$ son convexas y están acotadas a la baja. Por ejemplo, en el caso de la pérdida cuadrática, la solución de $(2.2)$ viene dada por $$\Phi(\cdot, \Theta(t))=C(t)\left(y^{(i)}\right)_{i=1}^{m}+\left(\Phi\left(\cdot, \Theta_{0}\right)-C(t)\left(\Phi\left(x^{(i)}, \Theta_{0}\right)\right)_{i=1}^{m}\right)$$ donde $C(t):=\left(\left(K^{\infty}\left(\cdot, x^{(i)}\right)\right)_{i=1}^{m}\right)^{T}\left(\bar{K}^{\infty}\right)^{-1}\left(\mathrm{I}_{m}-e^{-\frac{2 \bar{K}^{\infty} t}{m}}\right) .$ Como realización inicial $\Phi\left(\cdot, \Theta_{0}\right)$ constituye una proceso gaussiano centrado, el segundo término en $(2.5)$ sigue una distribución normal con media cero en cada entrada. En el límite $t \rightarrow \infty$ su varianza desaparece en las características de entrada $x^{(i)}, i \in[m]$ y el primer término converge al interpolador kernel-norm mínimo, es decir, a la solución de $$\min _{f \in \mathcal{H}_{K} \infty}\|f\|_{K^{\infty}} \quad \text { s.t. } \quad f\left(x^{(i)}\right)=y^{(i)}$$

2voto

nehemoro Puntos 30

En cuanto a la primera pregunta:

La norma $\|\cdot\|_{K^\infty}$ viene dado por el espacio de Hilbert del núcleo reproductor correspondiente al núcleo $K^\infty$ .

A continuación explicaremos los distintos conceptos:

  1. Reproducción del núcleo del espacio de Hilbert :

    El teorema de Moore-Aronszajn establece que un núcleo simétrico y definido positivo $K$ en un conjunto $X$ define un espacio de Hilbert único $\left(\mathcal{H}_{K},\|\cdot\|_{K}\right)$ de funciones sobre $X$ para las que los funcionales de evaluación $\mathcal{H}\ni f\mapsto f(x)$ , $x\in X$ son operadores acotados.

    El espacio de Hilbert $\mathcal{H}_{K}$ se da como finalización de $\mathcal{H}_K^0 := \mathrm{span} \big(\{K(x,\cdot) \colon x\in X\} \big)$ respecto al producto interior

    $$ \left\langle \sum_{i=1}^m a_i K(x^{(i)},\cdot), \sum_{j=1}^n b_j K(y^{(j)},\cdot) \right \rangle_{K} := \sum_{i=1}^m \sum_{j=1}^n {a_i} b_j K(x^{(i)}, y^{(j)}). $$

  2. El núcleo limitador $K^\infty$ :

    Bajo supuestos adecuados, el kernel aleatorio $K_{\Theta(t)}$ converge en el límite de ancho infinito $N_1,\dots,N_{L-1}\to \infty$ al núcleo determinista $K^\infty$ que viene dado por

    $$K^\infty(x_1,x_2):= \sum_{\ell=1}^L \Sigma^{(\ell)}(x_1,x_2) \prod_{k=\ell+1}^{L} \dot{\Sigma}^{(k)}(x_1,x_2).$$

    En lo anterior, los núcleos $\Sigma^{(\ell)}$ y $\dot{\Sigma}^{(k)}$ se definen recursivamente mediante

    $$\Sigma^{(\ell+1)} = \sigma_b^2 + \sigma_w^2 \mathbb{L}^{\varrho}_{\Sigma^{(\ell)}} \quad \text{and} \quad \dot{\Sigma}^{(\ell+1)} = \sigma_w^2\mathbb{L}^{\dot{\varrho}}_{\Sigma^{(\ell)}}, $$

    donde $\Sigma^{(1)}(x_1,x_2) := \sigma_b^2 + \frac{\sigma_w^2}{d} \langle x_1,x_2 \rangle$ , $$\mathbb{L}_\Sigma^f(x_1,x_2):= \mathbb{E}[f(X)f(Y)] \quad \text{with} \quad (X,Y)\sim \mathcal{N}\big(0, (\Sigma(x_i,x_j))_{i,j=1}^2\big),$$ y $\dot{\varrho}$ denota la derivada de $\varrho$ .


En cuanto a la segunda pregunta:

Se puede comprobar directamente que la expresión para $\Phi(\cdot, \Theta(t))$ que implica el término $C(t)$ satisface la ecuación diferencial correspondiente como

  1. la evaluación en $t=0$ es igual a $\Phi(\cdot, \Theta_0)$ y

  2. la derivada respecto a $t$ es igual a $-\frac{1}{m} \sum_{i=1}^{m} K_{\Theta(t)}\left(\cdot, x^{(i)}\right) D_{i}(t)$ . En este caso, se utiliza la derivada de la exponencial matricial.

1voto

guest Puntos 1

Se define que $$K_{\theta}: \mathbb{R}^{d} \times \mathbb{R}^{d} \rightarrow \mathbb{R}, \quad K_{\theta}\left(x_{1}, x_{2}\right)=\left(\nabla_{\theta} \Phi\left(x_{1}, \theta\right)\right)^{\top} \nabla_{\theta} \Phi\left(x_{2}, \theta\right)$$ donde $\theta$ es un punto del $P(N)$ -espacio real dimensional, por lo que $K_\theta$ es una función bivariante que da como resultado un número real. Tenemos $K_{\Theta_0(t)}\stackrel{t\to\infty}\to K^\infty$ por lo que en un espacio de Hilbert de núcleo reproductor, la norma $\|f\|_{K^\infty}$ representa el producto interior bajo $L^2$ -norm. En particular, el teorema de Mercer da $$\|f\|_{K^\infty}=\sqrt{\sum_i\frac{\langle f,\varphi_i\rangle_{L^2}^2}{\lambda_i}}$$ donde $\lambda_i$ y $\varphi_i$ son los valores propios y los vectores propios, respectivamente, del operador integral de Hilbert-Schmidt \begin{align}[T_{K^\infty}\varphi](x)&=\int_\Omega K^\infty(x,s)\varphi(s)\,ds\\&=(\nabla_{\Theta_0(\infty)}\Phi(x,\Theta_0(\infty)))^\top\int_\Omega\nabla_{\Theta_0(\infty)}[\Phi(s,\Theta_0(\infty))]\cdot\varphi(s)\,ds.\end{align} Esta forma es poco manejable, por lo que sus expresiones exactas no se utilizan en el documento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X