La siguiente pregunta aparentemente simple me está confundiendo bastante:
Tomemos el problema de regresión de mínimos cuadrados (para $X \in \mathbb{R}^{n×p}$ y $y \in \mathbb{R}^n$):
$$\min_{\beta \in \mathbb{R}^p} \| y-X\beta \|_2^2$$
Demuestra que el dual equivalente de este problema es:
$$\min_{v \in \mathbb{R}^n} \| y-v \|_2^2 \text{ sujeto a } X^T v = 0$$
Pista: Al derivar el dual, puedes empezar introduciendo la variable auxiliar $z=X\beta$.
(Fuente: Q2.b en http://www.stat.cmu.edu/~ryantibs/convexopt/homework/homework3.pdf)
Lo que intenté
Siguiendo la pista, por supuesto, obtengo el Lagrangiano:
$$L(\beta,z,v) = \lVert y - z \rVert_2^2 + v^T(z-X\beta)$$
Dado que esta función es convexa, podemos calcular el gradiente para encontrar el punto donde minimiza $L$ como función de $z$ y $\beta$. Al hacer eso, obtenemos las siguientes dos condiciones:
$$ -2(y-z) + v = 0 $$ $$ -X^T v = 0 $$
Sustituyendo eso de nuevo en el Lagrangiano, obtengo:
$$ g(v) = \frac14 \lVert v \rVert^2 + v^T (y - \frac12 v) = v^T (y - \frac14 v) $$
Y tenemos la restricción $X^Tv = 0$ como se deseaba. Sin embargo, aunque maximizar este $g(v)$ es equivalente a minimizar $\lVert y - v \rVert_2^2$, en el sentido de que el mismo $v^\ast$ debería optimizar ambos, las dos funciones no son iguales y no deberían tener el mismo valor óptimo $g(v^\ast)$.
La segunda parte de la pregunta pregunta sobre la relación entre las soluciones primal y dual, así que no estoy seguro de cómo proceder, dado que no encontré que los dos problemas fueran primal y dual. ¿Cometí un error en las matemáticas, o hay algo que me estoy perdiendo sobre esta pregunta?