Creo que debe ser la lectura de este párrafo (abajo) de forma incorrecta.
Tenga en cuenta que ambos tipos de pruebas que hemos definido en general dependen de la inversa del nivel de ruido de $C$ y el kernel $K(x, x^\prime )$ por separado. Esto es en contraste a la convencional SVM solución: este último se encuentra mediante la maximización de la log-posterior (13), y la posición de esta máxima claramente que sólo depende del producto $CK(x, x^\prime )$. Este es un punto importante: implica que las propiedades de la convencional SVM solo-generalización de error límites, prueba o error de validación cruzada de error, por ejemplo-no pueden ser usados para asignar un inequívoco valor de a $C$. Desde $C$ determina la clase de probabilidades (10), esto también significa que una determinada clase de probabilidades para SVM predicciones no pueden ser obtenidos de esta manera. La intuición detrás de esta observación es simple: Si $C$ es variada mientras que $CK(x, x^\prime)$ se mantiene fijo (que significa el cambio de la amplitud del núcleo en proporción inversa a $C$), entonces la posición del máximo de la parte posterior de la $P(\theta | D)$, es decir, el convencional SVM solución, se mantiene invariable. La forma de la parte posterior, por otro lado, no varían en una manera no trivial, siendo más alcanzó su punto máximo alrededor de la máxima para mayor $C$; la evidencia es sensible a estos cambios en la forma y modo depende de $C$.
(Mientras que el Dr. Sollich la discusión es en el contexto de la Bayesiano SVM métodos, me gustaría dejar de lado la perspectiva Bayesiana para el momento y sólo se centran en lo que el autor está diciendo acerca de la convencional SVM métodos).
El papel es Sollich, Pedro. 2002. El Aprendizaje De Máquina. V 46, 1-3. "Bayesiano Métodos para Máquinas de Vectores Soporte: Evidencia y Predictivo de la Clase de Probabilidades" pp 21-52.
Mi interpretación del párrafo es que la convencional SVM rendimiento de la superficie de la hiper-parámetros para un determinado conjunto de datos es el mismo a lo largo de una hipérbola definida por $\text{constant}=CK(x,x^\prime),$, pero debido a que los datos son fijos, $K(x,x^\prime)$ sólo varía a través de $\gamma$, tenemos $$\text{constant}=C\gamma$$
En el ejemplo de una función de base radial kernel con el parámetro de ancho de $\gamma$, esto a su vez implica que no necesitamos buscar más de una cuadrícula de $C\times\gamma$, pero en su lugar puede fijar un parámetro de búsqueda y en el resto de parámetros. Es evidente que esto podría acelerar drásticamente cualquier red de búsqueda de más de hyperparameters. (Pero sí, soy consciente de que la rejilla de búsqueda es sub-óptima).
Ilustrado, bajo mi interpretación, cada uno de los hyperbolae inferior tiene la misma probabilidad de valor a lo largo de la línea (pero algunos hyperbolae pueden tener el mismo valor debido a que la hyperparameter superficie es nonconvex). La fijación de $\frac{1}{C}=\lambda$ a, digamos, 4, significa que todavía podemos encontrar una máxima probabilidad en uno de los muchos hyperbolae correspondiente a la alternativa de los valores de $\gamma$, y que esta probabilidad no serán peor que cualquiera de las otras posibilidades en el mismo hipérbola.
Es mi interpretación correcta?