Consideremos el programa de optimización de la SVM kernelizada:
$$\text{maximize}_{\alpha} ~~ \alpha^T1-\alpha^TQ\alpha$$ $$\text{subject to:} \sum_{i=1}^N \alpha_iy_i=0,~0\leq \alpha_i\leq c$$
donde para la matriz $Q$ tenemos: $Q_{ij}=y_iy_j\text{kernel}(x_i,x_j)$ .
Este programa de optimización resulta de tomar el dual de la SVM basada en la pérdida de bisagra con $L_2$ regularización.
Esta es mi pregunta: ¿Por qué ningún organismo regulariza $\alpha$ en este programa de optimización?
Entiendo que $\alpha$ es sólo el vector de las variables duales, pero tengo mucha curiosidad por saber por qué la gente no ha intentado regularizar $\alpha$ .
Por ejemplo, si por las razones que sean queremos forzar al algoritmo a introducir menos vectores de soporte, entonces añadir un $L_1$ regularización en $\alpha$ sería útil, ¿verdad?
Es decir,
$$\text{maximize}_{\alpha} ~~ \alpha^T1-\alpha^TQ\alpha-\|\alpha\|_1$$ $$\text{subject to:} \sum_{i=1}^N \alpha_iy_i=0,~0\leq \alpha_i\leq c$$
O quizás, una regularización de Tikhonov:
$$\text{maximize}_{\alpha} ~~ \alpha^T1-\alpha^T(Q+\gamma I)\alpha$$ $$\text{subject to:} \sum_{i=1}^N \alpha_iy_i=0,~0\leq \alpha_i\leq c$$
Le agradezco que comparta cualquier comentario que pueda tener.