Mi comprensión de la SVM es que es muy similar a la de una regresión logística (RL), es decir, una suma ponderada de funciones se pasa a la función sigmoidea para obtener una probabilidad de pertenecer a una clase, pero en lugar de la cruz-entropía (logística) pérdida de la función, la formación se realiza mediante la bisagra de la pérdida. El beneficio del uso de la bisagra de la pérdida, es que uno puede hacer varias numérico trucos para hacer kernelisation más eficiente. Un inconveniente, sin embargo, es que el modelo resultante tiene menos información que la correspondiente LR modelo podría tener. Así, por ejemplo, sin kernelisation (usando un kernel lineal) de la SVM decisión límite estaría todavía en el mismo lugar donde LR sería la salida de una probabilidad de 0.5, PERO uno no puede decir de la rapidez con la probabilidad de pertenecer a una clase desaparezca de la decisión de la frontera.
Mis dos preguntas son:
- Es mi interpretación sobre la correcta?
- ¿Cómo el uso de la bisagra de la pérdida no válido para interpretar SVM resultados como probabilidades?