El siguiente extracto del documento Matemáticas modernas del aprendizaje profundo página 23. Para simplificar, he ocultado los detalles.
La última línea es $$\min _{f \in \mathcal{H}_{K} \infty}\|f\|_{K^{\infty}} \quad \text { s.t. } \quad f\left(x^{(i)}\right)=y^{(i)}$$ Es $K^{\infty}$ un núcleo cuando $t\rightarrow{\infty}$ ? ¿Cómo se $\|\cdot\|_{K^{\infty}}$ definido? Si es posible, también quiero saber cómo $C(t)$ se deduce en el texto siguiente.
Consideramos un escenario de predicción unidimensional en el que la pérdida $\mathcal{L}(f,(x, y))$ depende de $x \in \mathcal{X}$ sólo a través de $f(x) \in \mathcal{Y}$ es decir, existe una función $\ell: \mathcal{Y} \times \mathcal{Y} \rightarrow \mathbb{R}$ tal que $$\mathcal{L}(f,(x, y))=\ell(f(x), y)$$ Por ejemplo, en el caso de la pérdida cuadrática tenemos que $\ell(\hat{y}, y)=(\hat{y}-y)^{2}$ . Además $\Phi$ sea una NN con arquitectura $(N, \varrho)=\left(\left(d, N_{1}, \ldots, N_{L-1}, 1\right), \varrho\right)$ y que $\Theta_{0}$ ser un $\mathbb{R}^{P(N)}-$ variable aleatoria. Para simplificar, evolucionamos los parámetros de $\Phi$ según la versión continua del descenso de gradiente, denominada flujo de gradiente, dada por $$\frac{\mathrm{d} \Theta(t)}{\mathrm{d} t}=-\nabla_{\theta} \widehat{\mathcal{R}}_{s}(\Phi(\cdot, \Theta(t)))=-\frac{1}{m} \sum_{i=1}^{m} \nabla_{\theta} \Phi\left(x^{(i)}, \Theta(t)\right) D_{i}(t), \quad \Theta(0)=\Theta_{0}$$ donde $D_{i}(t):=\left.\frac{\partial \ell\left(\hat{y}, y^{(i)}\right)}{\partial \hat{y}}\right|_{\hat{y}=\Phi\left(x^{(i)}, \Theta(t)\right)}$ es la derivada de la pérdida con respecto a la predicción en la característica de entrada $x^{(i)}$ a la vez $t \in[0, \infty)$ . La regla de la cadena implica la siguiente dinámica de realización de la NN $$\frac{\mathrm{d} \Phi(\cdot, \Theta(t))}{\mathrm{d} t}=-\frac{1}{m} \sum_{i=1}^{m} K_{\Theta(t)}\left(\cdot, x^{(i)}\right) D_{i}(t)$$ y su riesgo empírico $$\frac{\mathrm{d} \widehat{\mathcal{R}}_{s}(\Phi(\cdot, \Theta(t))}{\mathrm{d} t}=-\frac{1}{m^{2}} \sum_{i=1}^{m} \sum_{j=1}^{m} D_{i}(t) K_{\Theta(t)}\left(x^{(i)}, x^{(j)}\right) D_{j}(t)$$ donde $K_{\theta}, \theta \in \mathbb{R}^{P(N)}$ es el llamado núcleo neural tangente (NTK) $$K_{\theta}: \mathbb{R}^{d} \times \mathbb{R}^{d} \rightarrow \mathbb{R}, \quad K_{\theta}\left(x_{1}, x_{2}\right)=\left(\nabla_{\theta} \Phi\left(x_{1}, \theta\right)\right)^{T} \nabla_{\theta} \Phi\left(x_{2}, \theta\right)$$ Ahora dejemos que $\sigma_{w}, \sigma_{b} \in(0, \infty)$ y supongamos que la inicialización $\Theta_{0}$ consta de entradas independientes, donde las entradas correspondientes a la matriz de pesos y al vector de sesgo en el $\ell$ -ésima capa siguen una distribución normal con media cero y varianzas $\sigma_{w}^{2} / N_{\ell}$ y $\sigma_{b}^{2}$ respectivamente. Bajo supuestos débiles sobre la función de activación, el teorema del límite central implica que las preactivaciones convergen a procesos gaussianos centrados i.i.d. en el límite de anchura infinita $N_{1}, \ldots, N_{L-1} \rightarrow \infty$ Ver $\left[\mathrm{LBN}^{+} 18, \mathrm{MHR}^{+} 18\right] .$ Del mismo modo, también $K_{\Theta_{0}}$ converge a un núcleo determinista $K^{\infty}$ que permanece constante en el tiempo y sólo depende de la función de activación $\varrho$ la profundidad $L$ y los parámetros de inicialización $\sigma_{w}$ y $\sigma_{b}\left[\right.$ JGH18, $\mathrm{ADH}^{+} 19$ Yan19, LXS $^{+} 20$ ]. Así, dentro del límite de anchura infinita, el flujo de gradiente en los parámetros NN como en $(2.1)$ es equivalente al flujo de gradiente funcional en el espacio de Hilbert del núcleo reproductor $\left(\mathcal{H}_{K^{\infty}},\|\cdot\|_{K^{\infty}}\right)$ correspondiente a $K^{\infty}$ Ver $(2.2)$ . Según (2.3), el riesgo empírico converge a un mínimo global siempre que el núcleo se evalúe en las características de entrada, $\bar{K}^{\infty}:=\left(K^{\infty}\left(x^{(i)}, x^{(j)}\right)\right)_{i, j=1}^{m} \in \mathbb{R}^{m \times m}$ es definida positiva (véase, por ejemplo, [JGH18, DLL $\left.^{+} 19\right]$ para condiciones adecuadas) y el $\ell\left(\cdot, y^{(i)}\right)$ son convexas y están acotadas a la baja. Por ejemplo, en el caso de la pérdida cuadrática, la solución de $(2.2)$ viene dada por $$\Phi(\cdot, \Theta(t))=C(t)\left(y^{(i)}\right)_{i=1}^{m}+\left(\Phi\left(\cdot, \Theta_{0}\right)-C(t)\left(\Phi\left(x^{(i)}, \Theta_{0}\right)\right)_{i=1}^{m}\right)$$ donde $C(t):=\left(\left(K^{\infty}\left(\cdot, x^{(i)}\right)\right)_{i=1}^{m}\right)^{T}\left(\bar{K}^{\infty}\right)^{-1}\left(\mathrm{I}_{m}-e^{-\frac{2 \bar{K}^{\infty} t}{m}}\right) .$ Como realización inicial $\Phi\left(\cdot, \Theta_{0}\right)$ constituye una proceso gaussiano centrado, el segundo término en $(2.5)$ sigue una distribución normal con media cero en cada entrada. En el límite $t \rightarrow \infty$ su varianza desaparece en las características de entrada $x^{(i)}, i \in[m]$ y el primer término converge al interpolador kernel-norm mínimo, es decir, a la solución de $$\min _{f \in \mathcal{H}_{K} \infty}\|f\|_{K^{\infty}} \quad \text { s.t. } \quad f\left(x^{(i)}\right)=y^{(i)}$$