Actualmente estoy buscando en el sin restricciones de la forma primordial de la uno-vs-todos clasificador
NI∑i=1NK∑k=1,k≠yiL(1+wk⋅xi−wyi⋅xi)
donde
NI es el número de instancias,
NK es el número de clases,
NF es el número de características,
X NK×NF matriz de datos,
y es un vector de etiquetas de clase,
W NK×NI matriz donde cada uno corresponde a los pesos de la hyperplane de dividir una clase del resto,
L es arbitraria en función de pérdida.
Mi entendimiento es que el funcional por encima intenta encontrar un hyperplane para cada clase que maximiza la distancia entre las muestras dentro de la clase asociada a todas las demás muestras. Si el hyperplanes están colocados correctamente, a continuación, wk⋅xi debe ser siempre negativo, wyi⋅xi debe ser siempre positiva, y nuestra pérdida de función debe regresar bastante baja.
Estoy tratando de implementar este uso de la bisagra de la pérdida que creo que en este caso va a terminar siendo
max).
Sin embargo, en el anterior no pudimos terminar con una situación en la que el hyperplanes clasificar todas las muestras pertenecen a cada clase. Por ejemplo, si buscamos en la hyperplane sea, de la clase 1 de todas las otras clases, siempre que 1+\mathbf{w_k}\cdot\mathbf{x_i}<\mathbf{w_{y_i}}\cdot\mathbf{x_i}, entonces la incurrido en pérdidas será de 0 a pesar de \mathbf{x_i} está clasificado como el malo de la clase.
Donde he ido mal? O no importa si \mathbf{w_k}\cdot\mathbf{x_i} es negativo o positivo, a condición de que \mathbf{w_{y_i}}\cdot\mathbf{x_i} termina con una puntuación más alta? Tengo la sensación de que mi uso de la bisagra de la función tal como la he descrito aquí es incorrecta, pero mi uso de Google de hoy sólo ha llevado a una mayor confusión.
En una nota relacionada, ¿por qué hay un 1 en el funcional de arriba? Yo creo que tendría poco impacto.