Creo que la clave de la magia es la suavidad. Mi respuesta larga que sigue es simplemente para explicar sobre esta suavidad. Puede que sea la respuesta que esperas o no.
Respuesta corta:
Dado un núcleo definido positivo $k$ existe su correspondiente espacio de funciones $\mathcal{H}$ . Las propiedades de las funciones se determinan por el núcleo. Resulta que si $k$ es un núcleo gaussiano, el funciones en $\mathcal{H}$ son muy suaves. Así, una función aprendida (por ejemplo, una función de regresión, componentes principales en RKHS como en kernel PCA) es muy suave. Por lo general, la suposición de suavidad es sensata para la mayoría de los conjuntos de datos que queremos abordar. Esto explica por qué un núcleo gaussiano es mágico.
Respuesta larga de por qué un núcleo gaussiano da funciones suaves:
Un núcleo definido positivo $k(x,y)$ define (implícitamente) un producto $k(x,y)=\left\langle \phi(x),\phi(y)\right\rangle _{\mathcal{H}}$ para el vector de características $\phi(x)$ construido a partir de sus aportaciones $x$ y $\mathcal{H}$ es un espacio de Hilbert. La notación $\left\langle \phi(x),\phi(y)\right\rangle $ es un producto interno entre $\phi(x)$ y $\phi(y)$ . Para nuestro propósito, puedes imaginar $\mathcal{H}$ sea el espacio euclidiano habitual, pero posiblemente con un número inifinito de dimensiones. Imaginemos el vector habitual que es infinitamente largo como $\phi(x)=\left(\phi_{1}(x),\phi_{2}(x),\ldots\right)$ . En los métodos del núcleo, $\mathcal{H}$ es un espacio de funciones llamadas reproductoras de Hilbert (RKHS). Este espacio tiene una propiedad especial llamada ``propiedad de reproducción'' que consiste en que $f(x)=\left\langle f,\phi(x)\right\rangle $ . Esto dice que para evaluar $f(x)$ primero se construye un rasgo (infinitamente largo como se ha mencionado) para $f$ . Luego construyes su vector de características para $x$ denotado por $\phi(x)$ (infinitamente largo). La evaluación de $f(x)$ viene dada por la toma de un producto interno de la dos. Obviamente, en la práctica, nadie construirá un vector infinitamente largo. Como sólo nos interesa su producto interior, nos limitamos a evaluar directamente el núcleo $k$ . Eludir el cálculo de las características explícitas y calcular directamente su producto interior se conoce como el "truco del núcleo".
¿Qué características tiene?
Seguí diciendo características $\phi_{1}(x),\phi_{2}(x),\ldots$ sin especificar lo que son. Dado un núcleo $k$ Las características no son únicas. Pero $\left\langle \phi(x),\phi(y)\right\rangle $ está determinada de forma única. Para explicar la suavidad de las funciones, consideremos las características de Fourier. Supongamos un núcleo invariable por traslación $k$ , lo que significa $k(x,y)=k(x-y)$ es decir, el núcleo sólo depende de la diferencia de los dos argumentos. El núcleo gaussiano tiene esta propiedad. Sea $\hat{k}$ denotan el Fourier de Fourier de $k$ .
En este punto de vista de Fourier, las características de $f$ vienen dadas por $f:=\left(\cdots,\hat{f}_{l}/\sqrt{\hat{k}_{l}},\cdots\right)$ . Esto dice que la representación de características de su función $f$ viene dada por su transformada de Fourier dividida por la transformada de Fourer del núcleo $k$ . La representación de características de $x$ que es $\phi(x)$ es $\left(\cdots,\sqrt{\hat{k}_{l}}\exp\left(-ilx\right),\cdots\right)$ donde $i=\sqrt{-1}$ . Se puede demostrar que la propiedad de reproducción se mantiene (un ejercicio para los lectores).
Como en cualquier espacio de Hilbert, todos los elementos que pertenecen al espacio deben tener una norma finita. Consideremos la norma al cuadrado de un $f\in\mathcal{H}$ :
$ \|f\|_{\mathcal{H}}^{2}=\left\langle f,f\right\rangle _{\mathcal{H}}=\sum_{l=-\infty}^{\infty}\frac{\hat{f}_{l}^{2}}{\hat{k}_{l}}. $
Entonces, cuando esta norma es finita, es decir, $f$ ¿pertenece al espacio? Lo es cuando $\hat{f}_{l}^{2}$ cae más rápido que $\hat{k}_{l}$ para que el suma converja. Ahora, la Transformada de Fourier de un núcleo gaussiano $k(x,y)=\exp\left(-\frac{\|x-y\|^{2}}{\sigma^{2}}\right)$
es otra gaussiana donde $\hat{k}_{l}$ disminuye exponencialmente rápido con $l$ . Así que si $f$ es estar en este espacio, su transformada de Fourier debe caer aún más rápido que la de $k$ . Esto significa que la función tendrá efectivamente sólo unos pocos componentes de baja frecuencia con pesos elevados. Una señal con sólo componentes de baja frecuencia no se "menea" mucho. mucho. Esto explica por qué un núcleo gaussiano proporciona una función suave.
Extra: ¿Qué hay de un núcleo de Laplace?
Si se considera un núcleo de Laplace $k(x,y)=\exp\left(-\frac{\|x-y\|}{\sigma}\right)$ , su transformada de Fourier es una distribución de Cauchy que cae mucho más lentamente que la función exponencial de Fourier de un núcleo gaussiano. Esto significa que una función $f$ tendrá más componentes de alta frecuencia. Como resultado, la función dada por un núcleo de Laplace es "más áspera" que la dada por un núcleo de Gauss.
¿Cuál es una propiedad del núcleo gaussiano que no tienen otros núcleos?
Independientemente de la anchura gaussiana, una propiedad es que el núcleo gaussiano es ``universal''. Intuitivamente, esto significa que, dada una función continua acotada $g$ (arbitrario), existe una función $f\in\mathcal{H}$ tal que $f$ y $g$ están cerca (en el sentido de $\|\cdot\|_{\infty})$ hasta un valor arbitrario de precisión necesaria. Básicamente, esto significa que el núcleo de Gauss da funciones que pueden aproximar funciones "agradables" (acotadas, continuas) arbitrariamente bien. Los núcleos gaussianos y de Laplace son universales. Un núcleo polinómico, por ejemplo, no lo es.
¿Por qué no ponemos la norma a través de, digamos, una PDF de Cauchy y esperamos los mismos resultados?
En general, puedes hacer lo que quieras siempre que el resultado sea $k$ es definida positiva. La definición positiva se define como $\sum_{i=1}^{N}\sum_{j=1}^{N}k(x_{i},x_{j})\alpha_{i}\alpha_{j}>0$ para todos $\alpha_{i}\in\mathbb{R}$ , $\{x_{i}\}_{i=1}^{N}$ y todos $N\in\mathbb{N}$ (conjunto de números naturales). Si $k$ no es positivo definida, entonces no corresponde a un espacio de producto interno. Todos los el análisis se rompe porque ni siquiera tienes un espacio de funciones $\mathcal{H}$ como se ha mencionado. No obstante, puede funcionar empíricamente. Por ejemplo, el núcleo de la tangente hiperbólica (véase el número 7 de esta página )
$k(x,y) = tanh(\alpha x^\top y + c)$
que pretende imitar las unidades de activación sigmoideas de las redes neuronales, sólo es positiva definida para algunos ajustes de $\alpha$ y $c$ . Sin embargo, se ha informado de que funciona en la práctica.
¿Y qué pasa con otros tipos de características?
He dicho que las características no son únicas. Para el núcleo gaussiano, otro conjunto de características viene dado por Ampliación de Mercer . Véase el apartado 4.3.1 de la famosa Libro de procesos gaussianos . En este caso, las características $\phi(x)$ son polinomios de Hermite evaluados en $x$ .