Consideremos el modelo lineal: $$y = X \theta + \epsilon $$ con $X$ entradas o características de las entradas y $\theta$ un vector de parámetros (y $\epsilon$ el error) con la función de error regularizada $$ J(w)= \frac{1}{2} [X \theta - y]^T[X \theta - y] + \frac{\lambda}{2}\theta^T\theta.$$
La idea de los núcleos $k(x_i,x_j)$ es definir una función de similitud entre todos los pares de observaciones $i,j$ y resumirlos en la Matriz Gram $K$ . Si definimos $K=XX^T$ entonces $J(w)$ puede reescribirse como $$J(a)= \frac{1}{2}a^TKKa-a^TKt+\frac{1}{2}t^Tt+\frac{\lambda}{2}a^TKa$$ donde $$a = (K + \lambda I_N)^{-1} t.$$
Por último, una predicción para $y$ puede hacerse como $$\hat{y}(x)=k(x)^T(K+\lambda I_N)^{-1}t.$$ Entiendo que, aunque es sorprendente que podamos eliminar completamente los parámetros de la ecuación de predicción, la carga computacional aumenta fuertemente porque $K$ necesita ser invertido y es de orden $N \times N$ .
Lo que no entiendo es ¿Qué ventajas tiene el uso de un Kernel en este modelo?