4 votos

¿Cómo seleccionar la representación característica conjunta para SVM estructural con pérdida de binaria?

Para el uso estructurado de SVM con el binario de la pérdida de una de las necesidades para definir una combinación característica de la representación $\psi(x, y)$ de las entradas de $x$ y de salida $y$. Para la salida binaria $y \in \{-1, 1\}$.

Mientras que el cálculo de la mayoría violado la restricción de maximizar la pérdida aumentada de puntuación de más de $y$, yo.e, $max_{y} \Delta(y, y_i) + w^T.\psi(x, y)$ donde $\Delta()$ es de 0-1 pérdida y $y_i$ es la tierra de la verdad.

Mi duda es ¿cómo hace uno para seleccionar el $\psi()$. He visto algunas personas usan el $\psi(x, y) = x.y/2$ y algunos de uso $\psi(x, y) = x.y$. Pero la selección de los más violados restricción no debe ser afectado por la elección de $\psi()$. Por ejemplo, si $\psi()$ se define como decir $1000*x.y$, entonces la selección de los más violados restricción sería dominado sólo por el segundo término y la pérdida de plazo serán ignorados. Cualquier idea, me estoy perdiendo algo?

10voto

Arve Puntos 1056

Tsochantaridis et. al. hablar de este problema en "Gran Margen de Métodos Estructurados e Interdependiente de las Variables de Salida."

Que comparar un número de estructurado max-al margen de las formulaciones y observar que la "holgura reescalado" formulación de la escala invariante, mientras que el "margen de reescalado" formulación no es (Sección 2.2.5). Por lo que el $\Delta(y_i,y)$ función en el margen de escala formulación no necesita ser ajustado de acuerdo a la escala de la característica de la función.

Característica de la función de escala, sin embargo, probablemente no es un problema real en la práctica debido a que la característica de la función se utiliza generalmente para descomponer un gran espacio de salida y no se usa para ocultar arbitraria de los factores de escala.

El factor de $.5$ que usted menciona puede ser debido a la asignación estándar de dos clases svm para la formulación de la estructura de la formulación. La función de asignación de parte de la restricción en el problema estructurado puede ser escrita como:

$$ w_{y_i} \cdot \Psi(x,y_i) - w_{\neg y_i} \cdot \Psi(x,\neg y_i)\\ \quad=(w_{y_i} \cdot x) y_i - (w_{\neg y_i} \cdot x) \neg y_i\\ \quad=(w_{y_i} + w_{\neg y_i}) \cdot x \; y_i $$

Si usted asume que $w_{y_i}=w_{\neg y_i}$ y el equivalente regularizer de la norma 2-clase de svm es $||w||^2\dot = ||w_{y_i} + w_{\neg y_i}||^2$, entonces esto podría penalizar a los pesos de dos veces tanto como el estructurado regularizer, $||w_{y_i}||^2 + ||w_{\neg y_i}||^2$. Por lo tanto, le gustaría que el valor de la estructura de restricción para ser $(w_{y_i} + w_{\neg y_i}) \cdot x\;y_i/2\ge 1$ (si se asume un 0-1 pérdida).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X