Si proyectamos nuestros datos D en cualquier vector \vec{v}, estos datos se obtendrían como \vec{v}^{\intercal} D, y su matriz de covarianza se convierte en $\vec{v}^{\intercal} \Sigma \vec{v}.
Dado que el mayor eigenvector es el vector que apunta en la dirección de la mayor dispersión de los datos originales, el vector \vec{v} que apunta en esta dirección se puede encontrar eligiendo los componentes de la matriz de covarianza resultante de manera que la matriz de covarianza \vec{v}^{\intercal} \Sigma \vec{v} de los datos proyectados sea lo más grande posible.
Maximizar cualquier función de la forma \vec{v}^{\intercal} \Sigma \vec{v} con respecto a \vec{v}, donde \vec{v} es un vector unitario normalizado, se puede formular como un llamado Cociente de Rayleigh. El máximo de dicho Cociente de Rayleigh se obtiene configurando \vec{v} igual al eigenvector más grande de la matriz \Sigma.
En otras palabras; el eigenvector más grande de \Sigma corresponde al componente principal de los datos.
Si las covarianzas son cero, entonces los eigenvalues son iguales a las varianzas: ![enter image description here]()
Si la matriz de covarianza no es diagonal, los eigenvalues representan la varianza a lo largo de los componentes principales, mientras que la matriz de covarianza sigue operando a lo largo de los ejes: ![enter image description here]()
Una discusión detallada (y la fuente de las imágenes anteriores) de cómo se puede interpretar la matriz de covarianza desde un punto de vista geométrico se puede encontrar aquí: http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/