11 votos

Kernel rbf SVM - método heurístico para la estimación de gamma

He leído en este intercambio un método heurístico de estimación de gamma para el kernel rbf en MVS. ¿Me preguntaba si alguien podría ser capaz de explicar a mí un poco más detalladamente? Yo creo que seleccione 1000 o un gran número de pares de datapoints del conjunto de datos calcula entonces la norma de la diferencia de cada par. Al parecer, el inverso de la.1.9 cuantiles y mediana son buenos candidatos para una gama conveniente para el kernel rbf.

Gracias

9voto

davidsheldon Puntos 211

Primero de todo, no hay ninguna razón, excepto el coste computacional-no utilizar todo el conjunto de datos. Siempre y cuando no se utilice la información de la etiqueta, no hay razón para no utilizar toda la información que puede obtener de sus datos.

¿Por qué son los cuantiles de la distancia de una buena heurística? La solución de un SVM problema es una combinación lineal de las RBF los núcleos que se encuentran en el soporte de vectores $\sum_i y_i \alpha_i \exp(-\gamma ||x - x_i||^2)$. Durante la fase de aprendizaje, la optimización se adapta a la $\alpha_i$ a maximizar el margen, mientras que la retención de clasificación correcta.

Ahora, hay dos casos extremos para la elección de $\gamma$:

  1. Imaginar la $\gamma$ es muy pequeña, lo que significa que el kernel RBF es muy amplia. Supongamos que es tan amplia que el kernel RBF es todavía lo suficientemente positiva para cada punto de datos del conjunto de datos. Esto le dará probablemente darle el optimizador de un duro trabajo ya que al cambiar el valor de una sola $\alpha_i$ va a cambiar la decisión de la función en todos los puntos de datos debido a que el núcleo es demasiado amplia.
  2. La otra situación extrema es cuando el $\gamma$ es grande, lo que significa que el kernel RBF es muy estrecho. Cuando se cambia el $\alpha_i$ para que datapoint la decisión en función de la SVM será, básicamente, el cambio sólo para que datapoint sólo. Esto significa que, probablemente, todos los vectores de entrenamiento va a terminar como soporte de vectores. Evidentemente, esto no es deseable.

Para ver que la heurística es una buena opción, uno debe darse cuenta de que un cierto valor de $\gamma$ determina un límite para el kernel RBF en la que el kernel va a ser mayor que un cierto valor (como la que-$\sigma$-cuantil de la distribución Normal). Por la elección de la $\gamma$, según los cuantiles en los pares distancias de asegurarse de que un cierto porcentaje de los puntos de datos se encuentra dentro de ese límite. Por lo tanto, si cambia el $\alpha_i$ para un punto de datos que será, de hecho, sólo afectan a la decisión de la función de un determinado porcentaje de puntos de datos que es lo que quieres. ¿Que porcentaje debe ser elegido depende del problema de aprendizaje, pero evite cambiar la decisión de la función para todos o sólo un punto de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X