NOTA: No tome esto muy en serio -- la pregunta en realidad se debe a mi mala lectura $\|y_i - Wx_i\|^2$ como $\|y_i - Wx_i\|_2$, vea la respuesta.
Smith et al. en Offline bilingual word vectors, orthogonal transformations and the inverted softmax describen el aprendizaje de una "transformación de alineación" entre incrustaciones de palabras al resolver el problema
$$ \begin{align} & \min_W \sum_{i=1}^N \|y_i - Wx_i\|_2, \text{ s.t. } W^{T}W = I. \end{align} $$
sobre incrustaciones $x_i$, $y_i$ de diccionarios alineados $X_D$ y $Y_D$. La restricción garantiza la ortogonalidad para hacer que $W$ esté "autoalineado". Este problema se puede escribir bastante fácilmente como
$$ \max_W \sum_{i=1}^N y^T_i W x_i,\quad \text{ s.t. } W^{T}W = I. $$
Ahora, en lugar de usar descenso de gradientes, afirman que la solución óptima se obtiene analíticamente a través de una SVD:
$$ W^* = U V^T, \text{ donde } U \Sigma V^T = Y^T_D X_D $$
Pero no logro entender por qué esto es válido. La solución SVD, según he descubierto, es la solución del "problema de Procrustes ortogonal" similar con la norma de Frobenius,
$$ \begin{align} & \min_W \|Y - W X\|_F, \quad \text{ s.t. } W^{T}W = I; \end{align} $$
pero aquí tenemos una norma por entradas diferente:
$$ \begin{align} & \min_W \|Y - W X\|_{2,1}, \quad \text{ s.t. } W^{T}W = I. \end{align} $$
¿Por qué se aplica la misma solución? ¿Es alguna desigualdad de normas que estoy pasando por alto?
(Intenté investigar otras fuentes para este enfoque, pero todas simplemente usan DG o no justifican esta solución de manera más convincente. Véase Xing et al., 2015)