Si usted quiere resolver el problema de minimización de forma individual en cada uno de los dos restringida de los casos, entonces (b) puede ser reducido a una larga problema resuelto. [Edit: por "(b) $X$ es ortogonal", supongo que quieres decir $X$ ha ortonormales columnas. Si las columnas de a $X$ sólo deberán ser ortogonales en lugar de ortonormales, entonces el mínimo rastro es claramente $0$, la cual se alcanza cuando se $X=0$.]
Supongamos $A$ $m\times m$ $B$ $n\times n$ (por lo tanto,$X$$n\times m$). Podemos suponer que la $A,B$ $X$ tienen el mismo tamaño, porque si $X$ es "amplia" ($n<m$), podemos transformar el problema a la forma $\min\mathrm{tr}(AQ^T\tilde{B}Q)$ $QQ^T=I$ donde $A,\tilde{B}$ $Q$ tienen el mismo tamaño:
\begin{align}
AX^TBX
&= A\underbrace{[X^T\ Y^T]}_{Q^T}
\underbrace{\begin{bmatrix}B\\&0_{(m-n)\times(m-n)}\end{bmatrix}}_{\tilde{B}}
\underbrace{\begin{bmatrix}X\\ Y\end{bmatrix}}_{Q} = AQ^T\tilde{B}P.
\end{align}
La solución de $X$ para el problema original será entonces una submatriz de la solución de $Q$ a la transformada problema, o más específicamente,
$$X=(I_n,\,0_{n\times(m-n)})Q.$$
Una transformación similar puede llevarse a cabo si $X$ es "alto" y el tamaño de $B$ es mayor que el tamaño de $A$.
A continuación, como $A$ $B$ son positivas semidefinite, podemos ortogonalmente diagonalize a su autovalor de las matrices. Por lo tanto, vamos a$A=U\Lambda U^T$$B=V\Sigma V^T$, donde los autovalores (he.e las entradas de la diagonal) de $\Lambda$ están dispuestos en orden ascendente y las de $B$ están dispuestos en orden descendente:
\begin{align}
\Lambda&=\mathrm{diag}(\lambda_1,\ldots,\lambda_n):=\mathrm{diag}(\lambda^\uparrow_1(A),\ldots,\lambda^\uparrow_n(A)),\\
\Sigma&=\mathrm{diag}(\sigma_1,\ldots,\sigma_n):=\mathrm{diag}(\lambda^\downarrow_1(B),\ldots,\lambda^\downarrow_n(B)).
\end{align}
Poner $\tilde{Q}=V^TQU$, obtenemos
$$\min\mathrm{tr}(AQ^T\tilde{B}Q)=\min\mathrm{tr}(\Lambda\tilde{Q}^T\tilde{\Sigma}\tilde{Q}).$$
En otras palabras, mediante la absorción de $U$ $V$ a $Q$, que además puede suponer que $A$ $B$ son no negativos diagonal de las matrices.
Hemos transformado nuestro problema en una mejor forma. Ahora es el tiempo para resolverlo. Hay dos más populares enfoques para resolver este problema. Uno se ve más elegante y el otro tiene una aplicación más amplia.
El enfoque más elegante hace uso del Teorema de Birkhoff. En primer lugar, vamos a $\tilde{Q}=(q_{ij})$. A continuación, $\tilde{Q}\circ \tilde{Q}=(q_{ij}^2)$ es doblemente estocástica de la matriz. Por lo tanto
\begin{align}
\min_{\tilde{Q}\tilde{Q}^T=I} \mathrm{tr}(\Lambda \tilde{Q}^T\Sigma\tilde{Q})
&=\min_{\tilde{Q}\tilde{Q}^T=I} \sum_{i,j}\sigma_i\lambda_jq_{ij}^2\\
&\ge\min_S \sum_{i,j}\sigma_i\lambda_js_{ij};\ S=(s_{ij}) \textrm{ is doubly stochastic}\,\ldots(\ast).
\end{align}
Observar que $\sum_{i,j}\sigma_i\lambda_js_{ij}$ es una función lineal en $S$ y el conjunto de todos los doblemente estocástica de las matrices es compacto y convexo. Por lo tanto $\min\limits_S \sum_{i,j}\sigma_i\lambda_js_{ij}$ debe producirse en un punto extremo de este conjunto convexo. Sin embargo, por el Teorema de Birkhoff, los puntos extremos de este conjunto convexo son exactamente todas las matrices de permutación. Y una matriz de permutación, por supuesto, es real ortogonal. Por lo tanto, la igualdad tiene en $(\ast)$ por encima y
$\min\limits_{\tilde{Q}\tilde{Q}^T=I} \mathrm{tr}(\Lambda \tilde{Q}^T\Sigma\tilde{Q})$ es el mínimo de $\mathrm{tr}(\Lambda P^T\Sigma P)$ sobre todas las matrices de permutación $P$. Como las entradas de la diagonal de a $\Lambda$ $\Sigma$ son no negativos y dispuestos en pedidos de enfrente, el mínimo global se produce en $\tilde{Q}=P=I$ o $Q=VU^T$, lo que se traduce a $X=(I_n,\,0_{n\times(m-n)})VU^T$ al $X$ es amplia.
El aparentemente menos elegante enfoque hace uso de cálculo. Los principales pasos son como sigue:
- Conjunto de primera derivada de la $\mathrm{tr}\ \Lambda \tilde{Q}^T \Sigma \tilde{Q}$ (con respecto al $\tilde{Q}$, sujeto a $\tilde{Q}^T\tilde{Q}=I$) a cero da $\mathrm{tr}(-\Lambda \tilde{Q}^TK\Sigma \tilde{Q} + \Lambda \tilde{Q}^T \Sigma K\tilde{Q})=0$ para todos sesgo de simetría de la matriz de $K$. Por lo tanto $M=-\Sigma \tilde{Q}\Lambda \tilde{Q}^T + \tilde{Q}\Lambda \tilde{Q}^T \Sigma$ es una matriz simétrica.
- Por definición, sin embargo, $M$ es sesgar-simétrica. Por lo tanto $M=0$, es decir, $\tilde{Q}\Lambda \tilde{Q}^T\Sigma$ es simétrica.
- Ahora, supongamos que el $2n$ diagonal entradas en $\Lambda$ $\Sigma$ son todos distintos de cero y distinto. Desde $\tilde{Q}\Lambda \tilde{Q}^T\Sigma$ es simétrica, $\tilde{Q}$ debe ser una matriz de permutación. Por lo tanto obtenemos el mismo resultado que en el enfoque anterior. Cuando las entradas de $\Lambda$ $\Sigma$ no son todos distintos, podemos considerar dos secuencias de no negativo de la diagonal de las matrices de $\{\Lambda_n\}$ $\{\Sigma_n\}$ tal que $\Lambda_n\rightarrow\Lambda,\ \Sigma_n\rightarrow\Sigma$$n\rightarrow\infty$, y para cada una de las $n$ $2n$ las entradas de la diagonal de a $\Lambda_n$ $\Sigma_n$ son cero y distinto. Así, podemos llegar a nuestra conclusión deseada por una continuidad en el argumento.
Este segundo enfoque requiere más trabajo (debido a que no tenemos agradable teorema de la que depende), pero yo creo que la técnica involucrados (matriz de cálculo) es aplicable a más problemas y por lo tanto más útil.