Estoy trabajando en un ejercicio de aprendizaje estadístico que requiere cierto conocimiento de optimización convexa, del cual lamentablemente carezco.
Considera el modelo de regresión lineal $$y_i=h(x_i)^\top\beta+\epsilon_i \quad i=1,\ldots,n$$ donde $\varepsilon_i$ son errores aleatorios. Considera un núcleo simétrico y definido positivo $K(x_i, x_j)=h(x_i)^\top h(x_j)$. El estimador $\hat{\beta}$ es la solución a $$\min _\beta\left[\|\beta\|^2+\sum_{i=1}^n \xi_i^2\right]$$ sujeto a la restricción $\xi_i=y_i-h\left(x_i\right)^{\top} \beta$.
Ahora se me pide que (i) dé la función Lagrange primal, (ii) la función dual de Wolfe y (iii) derive una expresión para $\hat{\beta}$.
Para (i), al sustituir la restricción de igualdad e introducir multiplicadores de Lagrange obtengo $L_P=\beta^\top\beta+\sum_{i=1}^n \alpha_i(y_i-h(x_i)^\top\beta)^2$.
Para (ii), calculo $$\frac{\partial L_P}{\partial \beta}=\beta+2\sum_{i=1}^n\alpha_iy_ih(x_i)-2\sum_{i=1}^n\alpha_ih(x_i)^\top\beta h(x_i)=0.$$
Ahora considero que debo aislar $\beta$ en lo anterior y colocar la expresión que obtengo en el problema primal para obtener el dual. Estoy atascado aquí. Si mi derivación hasta ahora es correcta, agradecería una pista sobre cómo hacer esto. (Si no lo es, por supuesto estaría encantado de que me hicieran notar cualquier error). ¡Gracias por considerar mi pregunta!