10 votos

Confianza de la SVM según la distancia a la hiperlínea

Para un clasificador probabilístico multiclase podemos obtener las probabilidades de pertenencia de un nuevo punto $x$ a cada clase $y_i$ En el caso de 3 clases, supongamos que obtenemos $P(y_a|x) > P(y_b|x) > P(y_c|x)$ por lo que la clase más probable de x es $y_a$ . Ahora supongamos que tenemos un svm multiclase donde podemos obtener puntuaciones de pertenencia de $x$ a cada clase (según las distancias de las hiperlíneas); en el caso de 3 clases supongamos que obtenemos $Score(y_a|x), Score(y_b|x), Score(y_c|x)$ Cómo es en este caso la primera, segunda y tercera clase más probable de $x$ (sin convertir estas puntuaciones en probabilidades) ? Normalmente obtengo valores positivos y negativos como por ejemplo $Score1 = -8622, Score2 = 5233, Score3 = -665$

13voto

Rob Allen Puntos 486

En realidad, es posible obtener probabilidades de una máquina de vectores de apoyo, que podrían ser más útiles e interpretables que un valor arbitrario de "puntuación". Hay algunos enfoques para hacer esto: un lugar razonable para empezar es Platt (1999) .

La mayoría de los paquetes/bibliotecas de SVM implementan algo así (por ejemplo, la opción -b 1 provoca LibSVM para producir probabilidades). Si vas a hacer tu propio trabajo, debes tener en cuenta que hay algunos problemas numéricos potenciales, resumidos en esta nota por Lin, Lin y Weng (2007) . También proporcionan un psuedocódigo, que podría ser útil también.

Editar en respuesta a su comentario : No me queda claro por qué prefieres una puntuación a una probabilidad, sobre todo porque puedes obtener la probabilidad con un mínimo esfuerzo adicional. Dicho esto, la mayoría de los cálculos de probabilidad parecen derivarse de la distancia entre el punto y el hiperplano. Si usted mira la sección 2 del documento de Platt, él camina a través de la motivación y dice:

Las densidades condicionales de clase entre los márgenes son aparentemente exponenciales. La regla de Bayes sobre dos exponenciales sugiere utilizar una forma paramétrica de un sigmoide: $$ P(y=1 | f) = \frac{1}{1+\exp(Af+B)}$$ Este modelo sigmoide equivale a suponer que la salida de la SVM es proporcional a la log-verosimilitud de un ejemplo de entrenamiento positivo. [MK: $f$ se definió en otro lugar para ser la salida cruda del SVM].

El resto de la sección del método describe cómo ajustar el $A$ y $B$ parámetros de esa sigmoidea. En la introducción (secciones 1.0 y 1.1), Platt revisa otros enfoques de Vapnik, Wahba y Hasti y Tibshirani. Estos métodos también utilizan algo así como la distancia al hiperplano, manipulada de diversas maneras. Todos ellos parecen sugerir que la distancia al hiperplano contiene alguna información útil, así que supongo que se podría utilizar la distancia bruta como alguna medida (no lineal) de confianza.

1 votos

Bueno, sé que hay métodos para convertir las puntuaciones (distancias a la frontera) en probabilidades y que podría ser más interpretable, sin embargo, como se indica claramente en la pregunta: Quiero utilizar estas puntuaciones "sin convertir estas puntuaciones en probabilidades". Así que mi pregunta es: ¿tiene sentido tomar los valores absolutos de todas estas puntuaciones y decir que cuanto más alto sea el valor absoluto de una puntuación $|s_i|$ el más probable $x$ es de la clase $i$ ? ¿O debo comparar las puntuaciones sin los valores absolutos? o ... ?

0voto

CHANDRIKA Puntos 1

Si el conjunto de datos de entrenamiento está razonablemente equilibrado y tiene características estandarizadas, tomaré las puntuaciones de la SVM como medida de confianza en la pertenencia a las respectivas clases. Los llamados métodos de calibración que convierten las puntuaciones en cantidades similares a la probabilidad, como el escalado de Platt, suelen utilizar funciones monótonas (como la función logística) para asignar las puntuaciones a las probabilidades. Por lo tanto, si sólo quiere comparar los niveles de confianza de un modelo SVM aprendido en un punto de datos de prueba concreto que pertenezca a posibles clases, puede limitarse a comparar los valores de las puntuaciones (no sus valores absolutos), dado que el conjunto de datos de entrenamiento a partir del cual se aprende el modelo está bastante equilibrado y no tiene ninguna peculiaridad inusual.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X