Para el uso estructurado de SVM con el binario de la pérdida de una de las necesidades para definir una combinación característica de la representación $\psi(x, y)$ de las entradas de $x$ y de salida $y$. Para la salida binaria $y \in \{-1, 1\}$.
Mientras que el cálculo de la mayoría violado la restricción de maximizar la pérdida aumentada de puntuación de más de $y$, yo.e, $max_{y} \Delta(y, y_i) + w^T.\psi(x, y)$ donde $\Delta()$ es de 0-1 pérdida y $y_i$ es la tierra de la verdad.
Mi duda es ¿cómo hace uno para seleccionar el $\psi()$. He visto algunas personas usan el $\psi(x, y) = x.y/2$ y algunos de uso $\psi(x, y) = x.y$. Pero la selección de los más violados restricción no debe ser afectado por la elección de $\psi()$. Por ejemplo, si $\psi()$ se define como decir $1000*x.y$, entonces la selección de los más violados restricción sería dominado sólo por el segundo término y la pérdida de plazo serán ignorados. Cualquier idea, me estoy perdiendo algo?