Estoy leyendo la derivación del problema de optimización de SVM de margen suave en Elements of Statistical learning. En él, los autores afirman que \begin{align} \min_{} \quad & \| \mathbf{w}\| \\ \text{s.t.} \quad & y_i(\mathbf{w}\cdot\mathbf{x_i}+b) \geq (1-\epsilon_i) \\ \quad & \epsilon_i \geq 0 \quad \forall i \\ \quad & \sum_{i=1}^m\epsilon_i \leq C\\ \ \end{align}
(que es la ecuación 12.7 del libro) es igual a esto \begin{align} \min_{b, \mathbf{w}, \mathbf{\epsilon}} \quad & \frac{1}{2}\| \mathbf{w}\|^2 + C\sum_{i=1}^m\epsilon_i \\ \text{s.t.} \quad & y_i(\mathbf{w}\cdot\mathbf{x_i}+b) \geq 1-\epsilon_i \\ \quad & \epsilon_i \geq 0 \quad \forall i \end{align}
(que es la ecuación 12.8 del libro).
Mi pregunta es cómo se puede mover la restricción $\sum_{i=1}^m\epsilon_i \leq C$ a la función objetivo de esta manera?