Si proyectamos nuestros datos $D$ en cualquier vector $\vec{v}$, estos datos se obtendrían como $\vec{v}^{\intercal} D$, y su matriz de covarianza se convierte en $\vec{v}^{\intercal} \Sigma \vec{v}.
Dado que el mayor eigenvector es el vector que apunta en la dirección de la mayor dispersión de los datos originales, el vector $\vec{v}$ que apunta en esta dirección se puede encontrar eligiendo los componentes de la matriz de covarianza resultante de manera que la matriz de covarianza $\vec{v}^{\intercal} \Sigma \vec{v}$ de los datos proyectados sea lo más grande posible.
Maximizar cualquier función de la forma $\vec{v}^{\intercal} \Sigma \vec{v}$ con respecto a $\vec{v}$, donde $\vec{v}$ es un vector unitario normalizado, se puede formular como un llamado Cociente de Rayleigh. El máximo de dicho Cociente de Rayleigh se obtiene configurando $\vec{v}$ igual al eigenvector más grande de la matriz $\Sigma$.
En otras palabras; el eigenvector más grande de $\Sigma$ corresponde al componente principal de los datos.
Si las covarianzas son cero, entonces los eigenvalues son iguales a las varianzas:
Si la matriz de covarianza no es diagonal, los eigenvalues representan la varianza a lo largo de los componentes principales, mientras que la matriz de covarianza sigue operando a lo largo de los ejes:
Una discusión detallada (y la fuente de las imágenes anteriores) de cómo se puede interpretar la matriz de covarianza desde un punto de vista geométrico se puede encontrar aquí: http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/