9 votos

¿Cómo funciona el $\phi(x_i)$ buscar el kernel RBF gaussiano?

Estoy intentando escribir programas para casos sencillos de SVM. Y lo que estoy atascado en es que soy incapaz de encontrar $\phi(x_i)$ para determinados núcleos.

Por ejemplo, existe un núcleo gaussiano de función de base radial (RBF):

$$K(x_i,x_j)=\mathrm{exp}\left( \|x_j-x_i\|^2\right),$$

pero para calcular los pesos de SVM también necesito $\phi(x_i)$ como

$$w=\sum_{i=1}^{N_{SV}} \alpha_i d_i \phi(x_i).$$

¿Hay algo que me estoy perdiendo, ya que ni siquiera un libro que he encontrado $\phi(x_i)$ para un determinado $K$ ?

7voto

Marc Claesen Puntos 9818

Te falta una cosa, a saber, el hecho de que no necesitamos conocer las imágenes de las instancias de datos en el espacio de características $\phi(\mathbf{x}_i)$ . Para algunas funciones de núcleo, el espacio de características es muy complejo/desconocido (por ejemplo, algunos núcleos de grafos), o de dimensiones infinitas (por ejemplo, el núcleo RBF).

Los métodos de núcleo sólo tienen que ser capaces de calcular productos internos entre dos imágenes en el espacio de características por ejemplo $\kappa(\mathbf{x}_i,\mathbf{x}_j)=\langle\phi(\mathbf{x}_i),\phi(\mathbf{x}_j)\rangle$ . No es necesario conocer el espacio de características para poder calcular productos internos en él. Esto se denomina truco del núcleo .


En concreto, para una SVM, $\mathbf{w}$ es el hiperplano de separación en el espacio de características . No siempre se puede escribir esto en el espacio de entrada. De nuevo, para el núcleo RBF $\mathbf{w}$ reside en un espacio de características de dimensión infinita. Todo lo que necesitamos hacer es calcular el producto interno de $\mathbf{w}$ y la imagen de la instancia de prueba $\mathbf{z}$ en el espacio de características $\phi(\mathbf{z}$ ), que es:

$$\langle\mathbf{w},\phi(\mathbf{z})\rangle = \sum_{i\in SV}\alpha_i y_i \kappa(\mathbf{x}_i,\mathbf{z}).$$

Las SVM explotan la llamada teorema del representante que establece que los modelos resultantes siempre pueden expresarse como una suma ponderada de evaluaciones de kernel entre algunas instancias de entrenamiento (los vectores de soporte) y la instancia de prueba. De hecho, esto es lo que hacen todos los métodos de kernel.


El núcleo RBF se mapea en un espacio de características de dimensión infinita. Para más información, consulte estas diapositivas de Chih-Jen Lin especialmente las diapositivas 10 y 11. Para una dimensión $x$ :

$$\phi_{RBF}(x) = e^{-\gamma x^2}\big[1,\sqrt{\frac{2\gamma}{1!}}x, \sqrt{\frac{(2\gamma)^2}{2!}}x^2, \sqrt{\frac{(2\gamma)^3}{3!}}x^3,\ldots\big]^T,$$

que se deduce de la expansión de Taylor de la función exponencial.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X