19 votos

Cómo entender el efecto de RBF SVM

¿Cómo puedo entender lo que hace el núcleo RBF en la SVM? Quiero decir que entiendo las matemáticas, pero ¿hay una manera de conseguir una sensación cuando este núcleo será útil?

¿Estarían los resultados de kNN relacionados con los de SVM/RBF ya que el RBF contiene distancias vectoriales?

¿Existe alguna forma de tener una idea del núcleo polinómico? Sé que cuanto más alta es la dimensión, más se mueve. Pero me gustaría tener una intuición de lo que hacen los núcleos en lugar de probar todos los núcleos posibles y elegir el más exitoso.

30voto

Sean B. Durkin Puntos 7723

Posiblemente, puedes empezar mirando una de mis respuestas aquí:
Clasificación SVM no lineal con núcleo RBF

En esa respuesta, intento explicar lo que intenta hacer una función del núcleo. Una vez que tengas una idea de lo que intenta hacer, como seguimiento, puedes leer mi respuesta a una pregunta en Quora: https://www.quora.com/Machine-Learning/Why-does-the-RBF-radial-basis-function-kernel-map-into-infinite-dimensional-space/answer/Arun-Iyer-1

Reproducir el contenido de la respuesta en Quora, en caso de que no tengas una cuenta en Quora.

Pregunta: ¿Por qué el kernel de la función de base radial (RBF) se sitúa en un espacio de dimensión infinita? Respuesta : Consideremos el núcleo polinómico de grado 2 definido por, $$k(x, y) = (x^Ty)^2$$ donde $x, y \in \mathbb{R}^2$ y $x = (x_1, x_2), y = (y_1, y_2)$ .

De este modo, la función del núcleo puede escribirse como $$k(x, y) = (x_1y_1 + x_2y_2)^2 = x_{1}^2y_{1}^2 + 2x_1x_2y_1y_2 + x_{2}^2y_{2}^2$$ Ahora, tratemos de elaborar un mapa de características $\Phi$ de manera que la función del núcleo puede escribirse como $k(x, y) = \Phi(x)^T\Phi(y)$ .

Considere el siguiente mapa de características, $$\Phi(x) = (x_1^2, \sqrt{2}x_1x_2, x_2^2)$$ Básicamente, este mapa de características está mapeando los puntos en $\mathbb{R}^2$ a puntos en $\mathbb{R}^3$ . Además, fíjate que, $$\Phi(x)^T\Phi(y) = x_1^2y_1^2 + 2x_1x_2y_1y_2 + x_2^2y_2^2$$ que es esencialmente nuestra función de núcleo.

Esto significa que nuestra función de núcleo está calculando realmente el producto interior/punto de los puntos en $\mathbb{R}^3$ . Es decir, se está implícitamente mapeando nuestros puntos de $\mathbb{R}^2$ a $\mathbb{R}^3$ .

Pregunta sobre el ejercicio : Si sus puntos están en $\mathbb{R}^n$ , a núcleo polinómico de grado 2 lo asignará implícitamente a algún espacio vectorial F. ¿Cuál es la dimensión de este espacio vectorial F? Pista: Todo lo que he hecho arriba es una pista.

Ahora, llegando a RBF.

Consideremos de nuevo el núcleo RBF para los puntos en $\mathbb{R}^2$ . Entonces, el núcleo puede escribirse como $$k(x, y) = \exp(-\|x - y\|^2) = \exp(- (x_1 - y_1)^2 - (x_2 - y_2)^2)$$ $$= \exp(- x_1^2 + 2x_1y_1 - y_1^2 - x_2^2 + 2x_2y_2 - y_2^2) $$ $$ = \exp(-\|x\|^2) \exp(-\|y\|^2) \exp(2x^Ty)$$ (suponiendo que gamma = 1). Utilizando la serie de Taylor se puede escribir esto como, $$k(x, y) = \exp(-\|x\|^2) \exp(-\|y\|^2) \sum_{n = 0}^{\infty} \frac{(2x^Ty)^n}{n!}$$ Ahora, si tuviéramos que hacer un mapa de características $\Phi$ al igual que que hicimos para el núcleo polinómico, te darías cuenta de que la característica mapearía cada punto de nuestro $\mathbb{R}^2$ a un vector infinito. Por lo tanto, RBF implícitamente mapea cada punto a un espacio infinito espacio dimensional.

Pregunta sobre el ejercicio : Obtener los primeros elementos vectoriales de la característica del mapa RBF para el caso anterior?

Ahora, de la respuesta anterior, podemos concluir algo:

  • Puede ser bastante difícil predecir en general cuál es la función de mapeo $\Phi$ para un núcleo arbitrario. Aunque, para algunos casos como polinomio y RBF podemos ver su aspecto.
  • Aunque conozcamos la función de mapeo, el efecto exacto que tendrá ese núcleo en nuestro conjunto de puntos puede ser difícil de predecir. Sin embargo, en ciertos casos podemos decir algunas cosas. Por ejemplo, si miramos el $\Phi$ dado anteriormente para el núcleo polinómico de grado 2 para $\mathbb{R}^2$ . Parece que $\Phi(x) = (x_1^2, \sqrt{2}x_1x_2, x_2^2)$ . A partir de esto podemos determinar que este mapa colapsa cuadrantes diametralmente opuestos, es decir, el primer y el tercer cuadrante se asignan al mismo conjunto de puntos y el segundo y el cuarto cuadrante se asignan al mismo conjunto de puntos. Por lo tanto, este núcleo nos permite resolver el problema XOR. En general, sin embargo, podría ser más difícil predecir este comportamiento para los espacios multidimensionales. Y se hace más difícil en el caso de los kernels RBF.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X