Estoy tratando de averiguar dónde me estoy equivocando con la formulación de un cierto problema, ya que todas las otras instancias fueron formuladas de manera ligeramente diferente.
El problema (problema SVR, si estás familiarizado con él) es el siguiente: dada $\{x^{(i)},y_i\}_{i=1}^{m}$, nos gustaría encontrar un hiperplano, definido por $\langle w,x\rangle +b=0$ que minimiza la norma $l_2$ de $w$ más la suma (sobre $i$) de la pérdida definida por: $$loss(w,b;x^{(i)})=[\left|\langle w,x^{(i)}\rangle +b -y_i\right|-\epsilon ]_+ $$
Yo formularía el problema de la siguiente manera: $$\min_{w,b,\xi_i} \frac{1}{2}\|w\|^2 + \sum_{i=1}^{m}\xi_i$$ $$s.t.\cases{\langle w,x^{(i)}\rangle +b-y_i-\epsilon\leq\xi_i\cr y_i-\langle w,x^{(i)}\rangle -b-\epsilon\leq\xi_i\cr \xi_i\geq 0} i=1,...,m $$ Pero cada formulación que he visto utiliza variables separadas $\xi_i,\xi_i^* \geq 0$ para las primeras 2 restricciones: $$\min_{w,b,\xi_i} \frac{1}{2}\|w\|^2 + \sum_{i=1}^{m}(\xi_i + \xi_i^*)$$ $$s.t. \cases{\langle w,x^{(i)}\rangle +b-y_i-\epsilon\leq\xi_i\cr y_i-\langle w,x^{(i)}\rangle -b-\epsilon\leq\xi_i^*\cr \xi_i,\xi_i^*\geq 0} i=1,...,m $$ ¿Qué está mal con mi forma de proceder? Estoy pensando que podría tener algo que ver con las condiciones KKT (ya que queremos formularlo usando los multiplicadores y obtener un problema con un mínimo global). Tengo cierta comprensión básica de las condiciones KKT, pero no entiendo completamente todas las cualificaciones de restricciones (lo cual asumo que podría ser el problema)
0 votos
Tu forma se ve bien. Si $z_i=+b-y_i$, entonces $loss_i = [|z_i|-\epsilon]_+$ y así $z_i - \epsilon \leq loss_i$ y $-z_i - \epsilon \leq loss_i$, lo cual está capturado en tus restricciones. Por lo tanto, tu problema busca minimizar $(1/2)||w||^2 + \sum_i loss_i`.
0 votos
Creo que necesitarías agregar la restricción $+b=0$ aunque. No sé cuál es la "otra formulación" o si tiene alguna ventaja. Tu problema de hecho parece ser convexo.
0 votos
@Michael Bueno, la pregunta persiste entonces... Espero encontrar a alguien que por casualidad esté familiarizado con SVR y la optimización convexa en general para que lo explique... No he encontrado una explicación detallada de la formulación, solo una descripción del problema y luego una formulación formal como la mía excepto con los cambios notados. No necesitaremos la restricción $\langle w,x\rangle +b=0$ aunque, es solo la definición de un hiperplano, no tenemos algún $x$ para el cual exijamos esto.
0 votos
No veo ningún problema en absoluto con tu formulación. De hecho, ni siquiera necesitas $\xi_i\geq 0$. Está implicado por los otros dos. Apostaré a que una formulación que utiliza $\xi_i^*$ es menos eficiente que la tuya. Pero de hecho, no podemos responder completamente la pregunta sin ver la forma exacta de la formulación alternativa.
0 votos
@MichaelGrant Pensé que no necesitaba $\xi_i \geq 0$ al principio, pero luego me di cuenta - Si tenemos, por ejemplo, $\langle w,x^{(i)}\rangle +b =0$ para algún $x^{(i)}$, obtenemos que $\xi_i$ puede (y lo hará, porque también minimizamos por ella) convertirse en $-\epsilon$, lo cual no queremos. Actualizaré con la otra formulación.
0 votos
Ah sí, entiendo. Estoy de acuerdo en que aún necesitas $\xi_i\geq 0$. Por favor, añade la función objetivo al problema alternativo.
0 votos
@MichaelGrant Hecho. Lo siento, olvidé que también cambia un poco el objetivo. ¡Gracias!
1 votos
Entonces, como está escrito, estoy seguro de que las variables adicionales son innecesarias. Uno u otro de $\xi_i$, $\xi_i^*$ será cero en el óptimo. (O ambos).
0 votos
@MichaelGrant ¡Gracias por tu ayuda :)!
0 votos
Estoy de acuerdo con @MichaelGrant en que tu primal es más simple, pero creo que lleva a un dual (ligeramente) más complicado. Ver respuesta abajo.