¿Es el núcleo gaussiano todavía un núcleo válido cuando se toma el negativo de la función interna?

Question

¿Es el núcleo gaussiano todavía un núcleo válido cuando se toma el negativo de la función interna?

Preguntado el 26 de Octubre, 2016: Cuando se hizo la pregunta
480 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Soporte vectorial máquinas (MVS) y otro Kernel basado en métodos, como procesos Gaussianos, el núcleo reemplaza el producto interno de dos funciones vectores $k(x_n,x_m)=x_n^Tx_m$ . El núcleo gaussiano

$k(x_n,x_m) = \exp(- \frac{\theta}{2} \lVert x_n-x_m\rVert^2)$ is a valid kernel function when $\theta \ge 0$ . $\theta$ entonces juega el papel de la varianza inversa (de precisión).

¿Mi pregunta es, esta función aún una función núcleo válido para MVS y Gaussian procesos cuando $\theta

Preguntado el 26 de Octubre, 2016 por ThomasKlausch

Answer 1

3 Respuestas

Answer 2

16voto

Bauna Puntos 176

Este razonamiento es esencialmente el de Sycorax la respuesta, pero no hay necesidad de recurrir a ese teorema:

Considere dos puntos distintos $x$ $y$ . Para $\theta<0$ , su matriz de Gram es $\begin{bmatrix} k(x, x) & k(x, y) \\ k(x, y) & k(y, y) \end{bmatrix} = \begin{bmatrix} 1 & \alpha \\ \alpha & 1 \end{bmatrix}$ donde $\alpha = k(x, y) = \exp\left( - \frac{\theta}{2} \lVert x - y \rVert^2 \right) = \exp\left( \tfrac12 \lvert{\theta}\rvert \lVert x - y \rVert^2 \right) > 1$ , ya que el argumento de a $\exp$ es estrictamente positivo.

El polinomio característico de esta Gramo matriz da $(\lambda - 1)^2 - \alpha^2 = 0$ , por lo que el $\lvert \lambda - 1 \rvert = \alpha$ , y los valores propios de esta matriz se $1 + \alpha$ $1 - \alpha$ . Desde $\alpha > 1$ , el segundo autovalor negativo, y el kernel no está psd.

Respondido el 26 de Octubre, 2016 por Bauna (176 Puntos )

Answer 3

4voto

user777 Puntos 10934

Este es un comentario extendido, por favor, no me juzgues tan duramente.

Mercer teorema caracteriza a la positiva semidefinite (PSD) del kernel que es de interés para la OP. Mercer ofrece dos condiciones para la validez de kernel:

La función es simétrica: $f(x,y)=f(y,x)$ .
El resultado del núcleo de la matriz $K_{n\times n}$ PSD para todas las entradas válidas, lo que implica que sus valores propios son todos no negativos. (Kernels puede limitarse a considerar sólo a intervalos específicos o en grupos, por lo que es factible definir un núcleo que se PSD sólo para algunos valores de entrada.)

Vamos a enfocar el problema por casos.

Tenga en cuenta que $\theta=0$ resultados en una matriz de 1s. Tiene rango 1, y tiene el autovalor 1 una vez y el resto de $n-1$ de sus autovalores son 0. Por lo tanto, es PSD.

Para $\theta>0$ , la más separados dos puntos, el más pequeño de la similitud entre ellos. A menos de dos puntos son idénticos, los elementos de la diagonal de a $K$ son de menos de 1, y los elementos de la diagonal son 1.

Podemos utilizar el mismo razonamiento para demostrar que para $\theta<0$ , $K$ no es diagonalmente dominante; es decir, la no-idéntico elementos tendrán grandes entradas en la diagonal de la diagonal (debido a $f(x,y;\theta<0)$ es convexo, con un mínimo en 1). Creo que podríamos conseguir inteligente con el Girshgorin círculo teorema para demostrar que en este caso, la matriz es de carácter indefinido, pero he probado y estoy atascado. Voy a seguir pensando sobre ello.

Respondido el 26 de Octubre, 2016 por user777 (10934 Puntos )

Answer 4

2voto

ThomasKlausch Puntos 968

Después de algo más de pensar que voy a hacer un intento de responder a mi propia pregunta. A partir del Obispo de Reconocimiento de patrones y el Aprendizaje de Máquina, p. 296, me tome las reglas para la construcción de nuevos Núcleos de validez de los Kernels. Deje $k_1$ válido Núcleo

$k(x_n,x_m) = f(x) k_1(x_n,x_m) f(x^T)$ $k(x_n,x_m) = \exp(k_1(x_n,x_m))$

son, de nuevo, válido Núcleos. Ahora tenemos

$\frac{\theta}{2} \lVert x_n-x_m \rVert^2 = \frac{\theta}{2} x_n^T x_n + \frac{\theta}{2} x_m^T x_m - \theta x_n^T x_m$

Así

$\exp (-\frac{\theta}{2} \lVert x_n-x_m \rVert^2)= \exp (-\frac{\theta}{2} x_n^T x_n) \exp (\theta x_n^T x_m) \exp (-\frac{\theta}{2} x_m^T x_m)$

Por lo tanto, por la segunda regla de arriba y ya sabemos $x_n^T x_m$ es válido kernel, $\exp (\theta x_n^T x_m)$ es válido kernel si $\theta>0$ , pero no si $\theta<0$ . Por la primera regla, a continuación, $\exp (-\frac{\theta}{2} \lVert x_n-x_m \rVert^2)$ es válido kernel si $\theta>0$ , pero no si $\theta<0$ . No estoy seguro acerca de esto, sin embargo. Comentarios de bienvenida.

Respondido el 26 de Octubre, 2016 por ThomasKlausch (968 Puntos )

¿Es el núcleo gaussiano todavía un núcleo válido cuando se toma el negativo de la función interna?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Es el núcleo gaussiano todavía un núcleo válido cuando se toma el negativo de la función interna?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: