Como @lacerbi sugiere un núcleo (o función de covarianza de la función en un Proceso Gaussiano) es esencialmente una métrica de similitud, por lo que el valor del núcleo es alta si los dos vectores de entrada son considerados "similares" de acuerdo a las necesidades de la aplicación y menos si son diferentes. Sin embargo no todas las métricas de similitud son válidas las funciones de núcleo. Para ser válido el kernel, la función debe ser interpretable como calcular un producto interior en algunos transformado el espacio de características, es decir, $K(x, x') = \phi(x)\cdot\phi(x')$ donde $\phi(\cdot)$ es una función que se asigna a la entrada de vectores en el espacio de características.
Entonces, ¿por qué debe el kernel ser interpretable como un producto interior en algunas disponen de espacio? La razón es que es mucho más fácil diseñar teórica de los límites de la generalización de rendimiento para los modelos lineales (como la regresión logística), que es para modelos no lineales (como una red neuronal). La mayoría de los modelos lineales puede escribirse de manera que los vectores de entrada sólo aparecen en el formulario de interior de los productos. Esto significa que podemos construir un modelo no lineal mediante la construcción de un modelo lineal en el núcleo de espacio de características. Este es un fijo de la transformación de los datos, por lo que todos los teóricos de rendimiento de los límites para el modelo lineal se aplica automáticamente a la nueva kernel modelo no lineal*.
Un punto importante que es difícil de entender al principio, es que tendemos a no pensar en un espacio de características que sería bueno para nuestra aplicación en particular y, a continuación, el diseño de un núcleo dando lugar a que el espacio de características. En general nos encontramos con una buena métrica de similitud y, a continuación, ver si es un kernel (la prueba es sencilla, si cualquier matriz de pares de las evaluaciones de que el núcleo de la función en los puntos en posición general es positiva definida, entonces es válido kernel).
$^*$ , Por supuesto, si usted ajusta los parámetros del kernel para optimizar la generalización de rendimiento, por ejemplo, minimizando la validación cruzada de error, entonces ya no es un fijo de transformación, pero que se ha aprendido a partir de los datos y gran parte de la hermosa teoría ha sido invalidado. Así, en la práctica, mientras que el diseño de métodos del núcleo tiene un montón de tranquilizar a la teoría detrás de ellos, los límites a sí mismos generalmente no se aplican a aplicaciones prácticas -, pero aún es tranquilizador como hay sonido principios que sustentan el modelo.