$\bf A^TA$ de las formas (o, equivalentemente, (?) positivo semidefinite matrices, o más en particular, las matrices de covarianza($\bf \Sigma$)) están vinculados, en la práctica, muchas de las operaciones en las que los puntos de datos se proyecta ortogonalmente:
Ordinario de regresión lineal (OLS) es parte de la matriz de proyección $\bf P = X(\color{blue}{X^TX})^{−1}X^T$ de la variable "dependiente" en la columna de el espacio de el modelo de la matriz.
En el análisis de componentes principales (PCA) los datos que se proyecta sobre los vectores propios de la matriz de covarianza.
La matriz de covarianza informa blanco al azar "blanco" de muestras en diagonal proyecciones en procesos de Gauss, que parece intuitivamente que corresponden a una manera de proyectar.
Pero estoy mirando una unificación de explicación. Un concepto más genérico.
En este sentido, me han llegado a través de la oración, "es como si la matriz de covarianza almacenan todos los posibles proyección desviaciones en todas las direcciones," una declaración aparentemente apoyado por el hecho de que una de nube de datos en $\mathbb R^n$, la varianza de la proyección de los puntos de un vector unitario $\bf u$ será dado por $\bf u^T \Sigma u$.
Entonces, ¿hay una manera de unificar todas estas inter-relacionados con las propiedades en un solo conjunto de principios a partir de la cual todas las aplicaciones geométricas y derivaciones puede ser visto?
Yo creo que el tema unificador es la relativa a la de la diagonalización ortogonal $\bf A^T A = U^T D U$ como se ha mencionado aquí, pero me gustaría ver esta idea se explica un poco más.
EXEGÉTICO APÉNDICE para los principiantes:
Estaba lejos de ser evidente, pero después de un poco de ayuda por Michael Hardy y @stewbasic, la respuesta por Étienne de Bézout pueden estar empezando a haga clic en. Así como en el movimiento Recuerdo, creo que es mejor que el tatuaje lo tengo hasta el momento aquí en caso de que sea borrosa en la mañana:
Concepto Uno:
Bloquear la multiplicación de la matriz:
\begin{align} A^\top A & = \begin{bmatrix} \vdots & \vdots & \vdots & \cdots & \vdots \\ a_1^\top & a_2^\top & a_3^\top & \cdots & a_{\color{blue}{\bf n}}^\top\\ \vdots & \vdots & \vdots & \cdots & \vdots\end{bmatrix} \begin{bmatrix} \cdots & a_1 & \cdots\\ \cdots & a_2 & \cdots \\ \cdots & a_3 & \cdots \\ & \vdots&\\ \cdots & a_{\color{blue}{\bf n}} & \cdots \end{bmatrix}\\ &= a_1^\la parte superior a_1 + a_2^\la parte superior a_2 + a_3^\la parte superior a_3 + \cdots+a_n^\la parte superior a_n\etiqueta{1} \end{align}
donde $a_i$'s $[\color{blue}{1 \times \bf n}]$ fila vectores.
Concepto Dos:
El $\color{blue}{\bf n}$.
Tenemos las mismas dimensiones para el bloque de la multiplicación de la matriz $\bf \underset{[\text{many rows} \times \color{blue}{\bf n}]}{\bf A^\top}\underset{[\color{blue}{\bf n} \times \text{many rows}]}{\bf A} =\large [\color{blue}{\bf n} \times \color{blue}{\bf n}] \small \text{ matrix}$, como para cada individuo sumando $\bf a_i^\top a_i$ en Eq. 1.
Concepto Tres:
$\bf a_i^\top a_i$ es engañosa, porque de la definición de clave: fila del vector.
Debido a $\bf a_i$ se define como un vector fila, y el $\bf a_i$ vectores se normalizan ($\vert a_i \vert =1$), $\bf a_i^\top a_i$ es realmente una matriz de la forma $\bf XX^\top$, que es una matriz de proyección siempre la $a_i$ vectores son independientes (consulta: "...son linealmente independientes"), y ortonormales (no es un requisito en la respuesta ("yo no estoy diciendo que son ortogonales")) - $\color{red}{\text{Do these vectors actually need to be defined as orthonormal?}}$ O puede esta restricción de orthonormality de los vectores $a_i$ estar relajado, o implícitamente cumplido en virtud de otras consideraciones? Por otra parte tenemos a un lugar específico de la $\bf A$ de la matriz, haciendo que los resultados menos generalizables.
Concepto De Cuatro:
Una proyección sobre qué?
Sobre el subespacio generado por las columnas de espacio de $\bf X$ (creo OLS proyección de ${\bf A}\color{gray}{(A^\top A)^{-1}} {\bf A^\top}$). Pero, ¿qué es $\bf X$ aquí? Otro que $\bf a_i^\top$, y desde $\bf a_i$ es un vector fila, $\bf a_i^\top$ es un vector columna.
Así que nosotros estamos haciendo orto-proyecciones en la columna espacio de $\bf A^\top$, en $\mathbb R^{\color{blue}{\bf n}}$.
Tenía la esperanza de que la última frase podría haber sido, "... en la columna de espacio de $\bf A$...
¿Cuáles son las implicaciones?