Primero de todo, no hay ninguna razón, excepto el coste computacional-no utilizar todo el conjunto de datos. Siempre y cuando no se utilice la información de la etiqueta, no hay razón para no utilizar toda la información que puede obtener de sus datos.
¿Por qué son los cuantiles de la distancia de una buena heurística? La solución de un SVM problema es una combinación lineal de las RBF los núcleos que se encuentran en el soporte de vectores $\sum_i y_i \alpha_i \exp(-\gamma ||x - x_i||^2)$. Durante la fase de aprendizaje, la optimización se adapta a la $\alpha_i$ a maximizar el margen, mientras que la retención de clasificación correcta.
Ahora, hay dos casos extremos para la elección de $\gamma$:
- Imaginar la $\gamma$ es muy pequeña, lo que significa que el kernel RBF es muy amplia. Supongamos que es tan amplia que el kernel RBF es todavía lo suficientemente positiva para cada punto de datos del conjunto de datos. Esto le dará probablemente darle el optimizador de un duro trabajo ya que al cambiar el valor de una sola $\alpha_i$ va a cambiar la decisión de la función en todos los puntos de datos debido a que el núcleo es demasiado amplia.
- La otra situación extrema es cuando el $\gamma$ es grande, lo que significa que el kernel RBF es muy estrecho. Cuando se cambia el $\alpha_i$ para que datapoint la decisión en función de la SVM será, básicamente, el cambio sólo para que datapoint sólo. Esto significa que, probablemente, todos los vectores de entrenamiento va a terminar como soporte de vectores. Evidentemente, esto no es deseable.
Para ver que la heurística es una buena opción, uno debe darse cuenta de que un cierto valor de $\gamma$ determina un límite para el kernel RBF en la que el kernel va a ser mayor que un cierto valor (como la que-$\sigma$-cuantil de la distribución Normal). Por la elección de la $\gamma$, según los cuantiles en los pares distancias de asegurarse de que un cierto porcentaje de los puntos de datos se encuentra dentro de ese límite. Por lo tanto, si cambia el $\alpha_i$ para un punto de datos que será, de hecho, sólo afectan a la decisión de la función de un determinado porcentaje de puntos de datos que es lo que quieres. ¿Que porcentaje debe ser elegido depende del problema de aprendizaje, pero evite cambiar la decisión de la función para todos o sólo un punto de datos.