Creo que entiendo la idea principal de las máquinas de vectores de apoyo. Supongamos que tenemos dos clases lineales separables y queremos aplicar SVM. Lo que hace la SVM es que busca un hiperplano $\{\mathbf{x}|\mathbf{w}^\top \mathbf{x}_i + b =0 \}$ que maximiza el margen (la distancia del hiperplano a los puntos de datos más cercanos).
Esta distancia viene dada por $\frac{1}{||w||}$ . Por lo tanto, maximizar la distancia es equivalente a minimizar sólo $||w||$ (con sujeción a las restricciones).
Y esta es mi pregunta: En la literatura veo que $\frac{1}{2}||w||^2$ se minimiza y no $||w||$ .
Puedo ver que minimizar $||w||$ equivale a minimizar $\frac{1}{2}||w||^2$ Pero, ¿por qué preferimos minimizar $\frac{1}{2}||w||^2$ ¿en su lugar?
¿Por qué minimizar $\frac{1}{2}||w||^2$ mejor que minimizar $\frac{1}{3}||w||^3$ ¿por ejemplo?