Nos deja denotar $X^\top X$$A$. Por construcción, es una $n\times n$ cuadrada simétrica positiva semi-definida la matriz, es decir, tiene un autovalor de descomposición $A=V\Lambda V^\top$ donde $V$ es la matriz de vectores propios (cada columna es un vector propio) y $\Lambda$ es una matriz diagonal de no negativo autovalores $\lambda_i$ clasifican en orden descendente.
Quieres aprovechar al máximo $$\operatorname{Tr}(D^\top A D),$$ where $D$ has $l$ orthonormal columns. Let us write it as $$\operatorname{Tr}(D^\top V\Lambda V^\top D)=\operatorname{Tr}(\tilde D^\top\Lambda \tilde D)=\operatorname{Tr}\big(\tilde D^\top \operatorname{diag}\{\lambda_i\}\, \tilde D\big)=\sum_{i=1}^n\lambda_i\sum_{j=1}^l\tilde D_{ij}^2.$$
Esta manipulación algebraica corresponde a girar el cuadro de coordenadas tal que $A$ se convierte en diagonal. La matriz $D$ se transforma como $\tilde D=V^\top D$, lo que también ha $l$ columnas ortonormales. Y el seguimiento de todo se reduce a una combinación lineal de los autovalores $\lambda_i$.
¿Qué podemos decir acerca de los coeficientes de $a_i=\sum_{j=1}^l\tilde D_{ij}^2$ en esta combinación lineal? Ellos son la fila de las sumas de cuadrados en $\tilde D$, y por lo tanto (i) que todos son de $\le 1$ y (ii) se suma a $l$. Si es así, entonces es evidente que para maximizar la suma, uno debe tomar estos coeficientes a ser $(1,\ldots, 1, 0, \ldots, 0)$, simplemente seleccionando la parte superior $l$ autovalores. En efecto, si, por ejemplo,$a_1<1$, entonces la suma se incrementará si establecemos $a_1=1$ y reducir el tamaño de la última no-cero $a_i$ término en consecuencia.
Esto significa que el máximo se alcanzará si $\tilde D$ es el primer $l$ columnas de la matriz identidad. Y en consecuencia si $D$ es el primer $l$ columnas de $V$, es decir, la primera $l$ vectores propios. QED.
(Por supuesto, esta no es una solución única. $D$ puede girar/refleja con cualquier $l\times l$ ortogonal de la matriz sin cambiar el valor de la traza.)
Esto está muy cerca de mi respuesta en ¿por Qué PCA maximizar la varianza total de la proyección? Este razonamiento sigue @whuber comentario en ese hilo:
[I]s no es intuitivamente obvio que, dada una colección de carteras de diversas cantidades de dinero en efectivo (modelado de la no-negativo autovalores), y un número fijo $k$ que usted puede elegir, que la selección de las $k$ más rico de carteras de maximizar su valor total en efectivo? La prueba de que esta intuición es correcta es casi trivial: si no has tomado la $k$ más grande, entonces usted puede mejorar su suma por el intercambio de la más pequeña tomó de una cantidad mayor.