Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

8 votos

Bisagra de la pérdida de uno-vs-todos clasificador

Actualmente estoy buscando en el sin restricciones de la forma primordial de la uno-vs-todos clasificador

NIi=1NKk=1,kyiL(1+wkxiwyixi)

donde

NI es el número de instancias,
NK es el número de clases,
NF es el número de características,
X NK×NF matriz de datos,
y es un vector de etiquetas de clase,
W NK×NI matriz donde cada uno corresponde a los pesos de la hyperplane de dividir una clase del resto,
L es arbitraria en función de pérdida.

Mi entendimiento es que el funcional por encima intenta encontrar un hyperplane para cada clase que maximiza la distancia entre las muestras dentro de la clase asociada a todas las demás muestras. Si el hyperplanes están colocados correctamente, a continuación, wkxi debe ser siempre negativo, wyixi debe ser siempre positiva, y nuestra pérdida de función debe regresar bastante baja.

Estoy tratando de implementar este uso de la bisagra de la pérdida que creo que en este caso va a terminar siendo

max).

Sin embargo, en el anterior no pudimos terminar con una situación en la que el hyperplanes clasificar todas las muestras pertenecen a cada clase. Por ejemplo, si buscamos en la hyperplane sea, de la clase 1 de todas las otras clases, siempre que 1+\mathbf{w_k}\cdot\mathbf{x_i}<\mathbf{w_{y_i}}\cdot\mathbf{x_i}, entonces la incurrido en pérdidas será de 0 a pesar de \mathbf{x_i} está clasificado como el malo de la clase.

Donde he ido mal? O no importa si \mathbf{w_k}\cdot\mathbf{x_i} es negativo o positivo, a condición de que \mathbf{w_{y_i}}\cdot\mathbf{x_i} termina con una puntuación más alta? Tengo la sensación de que mi uso de la bisagra de la función tal como la he descrito aquí es incorrecta, pero mi uso de Google de hoy sólo ha llevado a una mayor confusión.

En una nota relacionada, ¿por qué hay un 1 en el funcional de arriba? Yo creo que tendría poco impacto.

8voto

RexE Puntos 181

Le falta el resultado binario/etiqueta (que puede tomar el valor de +1 y -1 para una determinada clase) en la función de pérdida: max(0, 1 - y*(w*x)) (ver detalles más abajo).

En general, creo que la especificación anterior (tanto la notación y la pérdida de la función) complica one-vs-todos - en lugar de uno sólo podía tomar una clase en particular, la construcción de +1/-1 resultado y así como la correspondiente matriz de datos X (con Nf columnas y Ni filas) y el vector de parámetros w para esa clase, y escribir el correspondiente bisagra de la función de pérdida para una clásica binario clasificador para la clase: suma(max(0, 1 - y*(w*x))) donde la suma es sobre todos los datos de los casos, x es una fila de X que corresponde a una instancia en particular. Uno no necesita "1" en la bisagra de la función de pérdida (puesto que y*(w*x) >= 1 corresponde a la correcta predicción del modelo hasta la pérdida de la función de que se trate).

2voto

Arve Puntos 1056

Tu post parece ser mayormente correcta.

La forma en que multiclase lineal de los clasificadores se establece es que un ejemplo, x, está clasificado por la hyperplane que dan la puntuación más alta: \underset{k}{\mathrm{argmax}\,} w_k \cdot x. No importa si los resultados son positivos o negativos.

Si la bisagra de la pérdida para un ejemplo particular es cero, esto significa que el ejemplo está correctamente clasificada. Para ver esto, la bisagra de la pérdida será cero cuando se 1+w_{k}\cdot x_i<w_{y_i}\cdot x_i \;\forall k. Esta es una condición más fuerte que el de w_{k}\cdot x_i<w_{y_i}\cdot x_i \;\forall k, lo cual indicaría que ejemplo i fueron correctamente clasificados como y_i.

A la 1 de la bisagra de la pérdida está relacionada con el "margen" del clasificador.

La bisagra de la pérdida alienta a los puntajes de la clase correcta, w_{y_i}\cdot x_i a no sólo ser más altas que las puntuaciones de todas las otras clases, w_k\cdot x_i, pero para ser más altas que las puntuaciones por un factor aditivo.

Podemos utilizar el valor de 1 para el margen debido a la distancia de un punto a partir de un hyperplane escala por la magnitud de los lineales de pesos: \frac{w}{|w|}\cdot x es la distancia de a x desde el hyperplane con vector normal w. Dado que los pesos son los mismos para todos los puntos en el conjunto de datos, es sólo cuestión de que el factor de escala—1—es el mismo para todos los puntos de datos.

También, se pueden hacer las cosas más fáciles de entender si se puede parametrizar la función de pérdida ( L(x,y;w) . Actualmente tiene la pérdida de las funciones como una función de la margen lineal, y este no es necesariamente el caso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X