El núcleo es una forma de calcular el producto punto de dos vectores $\mathbf x$ y $\mathbf y$ en algún espacio de características (posiblemente de muy alta dimensión), razón por la cual las funciones del núcleo se denominan a veces "producto de puntos generalizado".
Supongamos que tenemos un mapeo $\varphi \, : \, \mathbb R^n \to \mathbb R^m$ que trae nuestros vectores en $\mathbb R^n$ a algún espacio de características $\mathbb R^m$ . Entonces el producto punto de $\mathbf x$ y $\mathbf y$ en este espacio es $\varphi(\mathbf x)^T \varphi(\mathbf y)$ . Un núcleo es una función $k$ que corresponde a este producto punto, es decir $k(\mathbf x, \mathbf y) = \varphi(\mathbf x)^T \varphi(\mathbf y)$ .
¿Por qué es útil? Los kernels ofrecen una forma de calcular productos de puntos en algún espacio de características sin ni siquiera saber qué es este espacio y qué es $\varphi$ .
Por ejemplo, consideremos un núcleo polinómico simple $k(\mathbf x, \mathbf y) = (1 + \mathbf x^T \mathbf y)^2$ con $\mathbf x, \mathbf y \in \mathbb R^2$ . Esto no parece corresponder a ninguna función de mapeo $\varphi$ es sólo una función que devuelve un número real. Suponiendo que $\mathbf x = (x_1, x_2)$ y $\mathbf y = (y_1, y_2)$ ampliemos esta expresión:
$\begin{align} k(\mathbf x, \mathbf y) & = (1 + \mathbf x^T \mathbf y)^2 = (1 + x_1 \, y_1 + x_2 \, y_2)^2 = \\ & = 1 + x_1^2 y_1^2 + x_2^2 y_2^2 + 2 x_1 y_1 + 2 x_2 y_2 + 2 x_1 x_2 y_1 y_2 \end{align}$
Obsérvese que esto no es más que un producto punto entre dos vectores $(1, x_1^2, x_2^2, \sqrt{2} x_1, \sqrt{2} x_2, \sqrt{2} x_1 x_2)$ y $(1, y_1^2, y_2^2, \sqrt{2} y_1, \sqrt{2} y_2, \sqrt{2} y_1 y_2)$ y $\varphi(\mathbf x) = \varphi(x_1, x_2) = (1, x_1^2, x_2^2, \sqrt{2} x_1, \sqrt{2} x_2, \sqrt{2} x_1 x_2)$ . Así que el núcleo $k(\mathbf x, \mathbf y) = (1 + \mathbf x^T \mathbf y)^2 = \varphi(\mathbf x)^T \varphi(\mathbf y)$ calcula un producto punto en un espacio de 6 dimensiones sin visitar explícitamente este espacio.
Otro ejemplo es el núcleo gaussiano $k(\mathbf x, \mathbf y) = \exp\big(- \gamma \, \|\mathbf x - \mathbf y\|^2 \big)$ . Si expandimos en Taylor esta función, veremos que corresponde a una función de dimensión infinita $\varphi$ .
Por último, recomendaría un curso en línea "Aprender de los datos" del profesor Yaser Abu-Mostafa como una buena introducción a los métodos basados en núcleos. En concreto, las conferencias "Máquinas de vectores de apoyo" , "Métodos del núcleo" y "Funciones de base radial" son sobre granos.