Estoy leyendo la derivación del problema de optimización de SVM de margen suave en Elements of Statistical learning. En él, los autores afirman que min
(que es la ecuación 12.7 del libro) es igual a esto \begin{align} \min_{b, \mathbf{w}, \mathbf{\epsilon}} \quad & \frac{1}{2}\| \mathbf{w}\|^2 + C\sum_{i=1}^m\epsilon_i \\ \text{s.t.} \quad & y_i(\mathbf{w}\cdot\mathbf{x_i}+b) \geq 1-\epsilon_i \\ \quad & \epsilon_i \geq 0 \quad \forall i \end{align}
(que es la ecuación 12.8 del libro).
Mi pregunta es cómo se puede mover la restricción \sum_{i=1}^m\epsilon_i \leq C a la función objetivo de esta manera?