Un binario clasificador SVM proporciona una etiqueta $y_c^{(i)}$ por cada $i$-ésimo ejemplo. Esto no es garantizado correspondiente a su verdadera etiqueta $y^{(i)}$, ya que el clasificador podría haber calculado un límite que misclassifies algunas muestras.
Supongamos que de alguna manera, en caso de lineal del núcleo, por ejemplo, soy capaz de encontrar la distancia a $d$ entre el $i$-ésimo de la muestra y en el límite, como se muestra en la figura.
Esta distancia de alguna manera me dice cómo de fiable es el clasificador en el que indica que el $i$-ésimo de la muestra pertenece a la clase seleccionada (positivo o negativo).
Mi problema
Cuando una clase $C$ (es decir, $C='Y'$ o $C='N'$ para la clasificación binaria), cómo calcular los siguientes probabilidad?
$Pr(y^{(i)} = C\quad |\quad y_c^{(i)})$
Que es: la probabilidad de que $C$ es el verdadero sello de la $i$-ésimo de la muestra, dado que el clasificador dio el dictamen $y_c^{(i)}$ sobre la muestra.
Mi solución (y por eso no funciona)
He intentado generalizar mediante la verdadera tasa positiva del clasificador, que es:
$Pr(y^{(i)} = C\quad |\quad y_c^{(i)}) = \frac{n_{C,y_c^{(i)}}}{\sum_{C'}n_{C',y_c^{(i)}}}$
donde $n_{C,y_c^{(i)}}$ es el número de muestras de la clase $C$ que el clasificador clasificados como $y_c^{(i)}$. Sin embargo, esta medida queda como lo es para cada una de las muestras en el conjunto.
Lo que me gustaría tener
Me gustaría, en cambio, una medida que depende del grado de confianza del clasificador, o, de alguna manera, en la distancia $d$ calculado sobre el límite.
Podría por favor proporcionar algunas sugerencias?
Gracias.