Bisagra de la pérdida de uno-vs-todos clasificador

Question

Bisagra de la pérdida de uno-vs-todos clasificador

Preguntado el 1 de Diciembre, 2010: Cuando se hizo la pregunta
496 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Actualmente estoy buscando en el sin restricciones de la forma primordial de la uno-vs-todos clasificador

$\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i})$

donde

$N_I$ es el número de instancias,
$N_K$ es el número de clases,
$N_F$ es el número de características,
$X$ $N_K \times N_F$ matriz de datos,
$y$ es un vector de etiquetas de clase,
$W$ $N_K \times N_I$ matriz donde cada uno corresponde a los pesos de la hyperplane de dividir una clase del resto,
$L$ es arbitraria en función de pérdida.

Mi entendimiento es que el funcional por encima intenta encontrar un hyperplane para cada clase que maximiza la distancia entre las muestras dentro de la clase asociada a todas las demás muestras. Si el hyperplanes están colocados correctamente, a continuación, $\mathbf{w_k}\cdot\mathbf{x_i}$ debe ser siempre negativo, $\mathbf{w_{y_i}}\cdot\mathbf{x_i}$ debe ser siempre positiva, y nuestra pérdida de función debe regresar bastante baja.

Estoy tratando de implementar este uso de la bisagra de la pérdida que creo que en este caso va a terminar siendo

$\max(0,1+\mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}$ ).

Sin embargo, en el anterior no pudimos terminar con una situación en la que el hyperplanes clasificar todas las muestras pertenecen a cada clase. Por ejemplo, si buscamos en la hyperplane sea, de la clase 1 de todas las otras clases, siempre que $1+\mathbf{w_k}\cdot\mathbf{x_i}<\mathbf{w_{y_i}}\cdot\mathbf{x_i}$ , entonces la incurrido en pérdidas será de 0 a pesar de $\mathbf{x_i}$ está clasificado como el malo de la clase.

Donde he ido mal? O no importa si $\mathbf{w_k}\cdot\mathbf{x_i}$ es negativo o positivo, a condición de que $\mathbf{w_{y_i}}\cdot\mathbf{x_i}$ termina con una puntuación más alta? Tengo la sensación de que mi uso de la bisagra de la función tal como la he descrito aquí es incorrecta, pero mi uso de Google de hoy sólo ha llevado a una mayor confusión.

En una nota relacionada, ¿por qué hay un 1 en el funcional de arriba? Yo creo que tendría poco impacto.

Preguntado el 1 de Diciembre, 2010 por Nimlar

Answer 1

2 Respuestas

Answer 2

8voto

RexE Puntos 181

Le falta el resultado binario/etiqueta (que puede tomar el valor de +1 y -1 para una determinada clase) en la función de pérdida: max(0, 1 - y*(w*x)) (ver detalles más abajo).

En general, creo que la especificación anterior (tanto la notación y la pérdida de la función) complica one-vs-todos - en lugar de uno sólo podía tomar una clase en particular, la construcción de +1/-1 resultado y así como la correspondiente matriz de datos X (con Nf columnas y Ni filas) y el vector de parámetros w para esa clase, y escribir el correspondiente bisagra de la función de pérdida para una clásica binario clasificador para la clase: suma(max(0, 1 - y*(w*x))) donde la suma es sobre todos los datos de los casos, x es una fila de X que corresponde a una instancia en particular. Uno no necesita "1" en la bisagra de la función de pérdida (puesto que y*(w*x) >= 1 corresponde a la correcta predicción del modelo hasta la pérdida de la función de que se trate).

Respondido el 29 de Febrero, 2012 por RexE (181 Puntos )

Answer 3

2voto

Arve Puntos 1056

Tu post parece ser mayormente correcta.

La forma en que multiclase lineal de los clasificadores se establece es que un ejemplo, $x$ , está clasificado por la hyperplane que dan la puntuación más alta: $\underset{k}{\mathrm{argmax}\,} w_k \cdot x$ . No importa si los resultados son positivos o negativos.

Si la bisagra de la pérdida para un ejemplo particular es cero, esto significa que el ejemplo está correctamente clasificada. Para ver esto, la bisagra de la pérdida será cero cuando se $1+w_{k}\cdot x_i<w_{y_i}\cdot x_i \;\forall k$ . Esta es una condición más fuerte que el de $w_{k}\cdot x_i<w_{y_i}\cdot x_i \;\forall k$ , lo cual indicaría que ejemplo $i$ fueron correctamente clasificados como $y_i$ .

A la 1 de la bisagra de la pérdida está relacionada con el "margen" del clasificador.

La bisagra de la pérdida alienta a los puntajes de la clase correcta, $w_{y_i}\cdot x_i$ a no sólo ser más altas que las puntuaciones de todas las otras clases, $w_k\cdot x_i$ , pero para ser más altas que las puntuaciones por un factor aditivo.

Podemos utilizar el valor de 1 para el margen debido a la distancia de un punto a partir de un hyperplane escala por la magnitud de los lineales de pesos: $\frac{w}{|w|}\cdot x$ es la distancia de a $x$ desde el hyperplane con vector normal $w$ . Dado que los pesos son los mismos para todos los puntos en el conjunto de datos, es sólo cuestión de que el factor de escala—1—es el mismo para todos los puntos de datos.

También, se pueden hacer las cosas más fáciles de entender si se puede parametrizar la función de pérdida ( $L(x,y;w)$ . Actualmente tiene la pérdida de las funciones como una función de la margen lineal, y este no es necesariamente el caso.

Respondido el 4 de Marzo, 2012 por Arve (1056 Puntos )

Bisagra de la pérdida de uno-vs-todos clasificador

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Bisagra de la pérdida de uno-vs-todos clasificador

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: