Con los datos de los puntos de $x_1, \ldots, x_n \in \mathbb{R}^d$ y las etiquetas de $y_1, \ldots, y_n \in \left \{-1, 1 \right\}$, el duro margen SVM problema primal es
$$ \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w $$ $$ \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1$$
que es una ecuación cuadrática programa con $d+1$ variables para ser optimizado para e $i$ restricciones. El doble
$$ \text{maximize}_{\alpha} \quad \sum_{i=1}^{n}{\alpha_i} - \frac{1}{2}\sum_{i=1}^{n}{\sum_{j=1}^{n}{y_i y_j \alpha_i \alpha_j x_i^T x_j}}$$ $$ \text{s.t.} \quad \forall i: \alpha_i \ge 0 \land \sum_{i=1}^{n}{y_i \alpha_i} = 0$$ es una ecuación cuadrática programa con $n + 1$ variables para ser optimizado para e $n$ la desigualdad y la $n$ restricciones de igualdad.
Cuando la aplicación de un duro margen de la SVM, ¿por qué iba a resolver el doble problema en lugar de la primitiva problema? El problema primal se ve más "intuitivo" para mí, y no necesito ocuparme con la dualidad de la brecha, la de Kuhn-Tucker, etc.
Tendría sentido para mí, para resolver el doble problema de si $d \gg n$, pero sospecho que hay mejores razones. Es este el caso?