Estoy aprendiendo sobre los núcleos de Mercer, y me ha surgido una pregunta. Desde que usamos el teorema de Mercer, sabemos que una matriz de kernel definida positiva puede ser representada por una producción interna del vector de entrada mapeado al nuevo espacio de características implicado por el kernel.
Una matriz Gram de $X$ se define un $K(X;k)\in \mathbb{R}^{m\times m}$ tal que $K_{i,j}=k(\hat{x}_i,\hat{x}_j)$ . Si la matriz $K$ es positiva definida, entonces $k$ se denomina núcleo de Mercer. Por el Teorema de Mercer, si tenemos un núcleo de Mercer, entonces existe una función $\phi: X \to Y $ tal que $$k(\hat{x}_i,\hat{x}_j)=\langle \phi(\hat{x}_i),\phi(\hat{x}_j) \rangle $$ La pregunta es, si es así, ¿por qué necesitamos utilizar la función del núcleo? ¿Por qué no transformar los datos según $\phi$ y utilizar las características transformadas para entrenar la SVM. Aparentemente con este enfoque debería haber alguna dificultad al clasificar un nuevo punto de datos, pero no estoy encontrando el problema.
Gracias.