7 votos

Papeles de $\bf A^TA$ ($\text {A transpose A}$) matrices en proyección ortogonal

$\bf A^TA$ de las formas (o, equivalentemente, (?) positivo semidefinite matrices, o más en particular, las matrices de covarianza($\bf \Sigma$)) están vinculados, en la práctica, muchas de las operaciones en las que los puntos de datos se proyecta ortogonalmente:

  1. Ordinario de regresión lineal (OLS) es parte de la matriz de proyección $\bf P = X(\color{blue}{X^TX})^{−1}X^T$ de la variable "dependiente" en la columna de el espacio de el modelo de la matriz.

  2. En el análisis de componentes principales (PCA) los datos que se proyecta sobre los vectores propios de la matriz de covarianza.

  3. La matriz de covarianza informa blanco al azar "blanco" de muestras en diagonal proyecciones en procesos de Gauss, que parece intuitivamente que corresponden a una manera de proyectar.

Pero estoy mirando una unificación de explicación. Un concepto más genérico.

En este sentido, me han llegado a través de la oración, "es como si la matriz de covarianza almacenan todos los posibles proyección desviaciones en todas las direcciones," una declaración aparentemente apoyado por el hecho de que una de nube de datos en $\mathbb R^n$, la varianza de la proyección de los puntos de un vector unitario $\bf u$ será dado por $\bf u^T \Sigma u$.

Entonces, ¿hay una manera de unificar todas estas inter-relacionados con las propiedades en un solo conjunto de principios a partir de la cual todas las aplicaciones geométricas y derivaciones puede ser visto?

Yo creo que el tema unificador es la relativa a la de la diagonalización ortogonal $\bf A^T A = U^T D U$ como se ha mencionado aquí, pero me gustaría ver esta idea se explica un poco más.


EXEGÉTICO APÉNDICE para los principiantes:

Estaba lejos de ser evidente, pero después de un poco de ayuda por Michael Hardy y @stewbasic, la respuesta por Étienne de Bézout pueden estar empezando a haga clic en. Así como en el movimiento Recuerdo, creo que es mejor que el tatuaje lo tengo hasta el momento aquí en caso de que sea borrosa en la mañana:

Concepto Uno:

Bloquear la multiplicación de la matriz:

\begin{align} A^\top A & = \begin{bmatrix} \vdots & \vdots & \vdots & \cdots & \vdots \\ a_1^\top & a_2^\top & a_3^\top & \cdots & a_{\color{blue}{\bf n}}^\top\\ \vdots & \vdots & \vdots & \cdots & \vdots\end{bmatrix} \begin{bmatrix} \cdots & a_1 & \cdots\\ \cdots & a_2 & \cdots \\ \cdots & a_3 & \cdots \\ & \vdots&\\ \cdots & a_{\color{blue}{\bf n}} & \cdots \end{bmatrix}\\ &= a_1^\la parte superior a_1 + a_2^\la parte superior a_2 + a_3^\la parte superior a_3 + \cdots+a_n^\la parte superior a_n\etiqueta{1} \end{align}

donde $a_i$'s $[\color{blue}{1 \times \bf n}]$ fila vectores.


Concepto Dos:

El $\color{blue}{\bf n}$.

Tenemos las mismas dimensiones para el bloque de la multiplicación de la matriz $\bf \underset{[\text{many rows} \times \color{blue}{\bf n}]}{\bf A^\top}\underset{[\color{blue}{\bf n} \times \text{many rows}]}{\bf A} =\large [\color{blue}{\bf n} \times \color{blue}{\bf n}] \small \text{ matrix}$, como para cada individuo sumando $\bf a_i^\top a_i$ en Eq. 1.


Concepto Tres:

$\bf a_i^\top a_i$ es engañosa, porque de la definición de clave: fila del vector.

Debido a $\bf a_i$ se define como un vector fila, y el $\bf a_i$ vectores se normalizan ($\vert a_i \vert =1$), $\bf a_i^\top a_i$ es realmente una matriz de la forma $\bf XX^\top$, que es una matriz de proyección siempre la $a_i$ vectores son independientes (consulta: "...son linealmente independientes"), y ortonormales (no es un requisito en la respuesta ("yo no estoy diciendo que son ortogonales")) - $\color{red}{\text{Do these vectors actually need to be defined as orthonormal?}}$ O puede esta restricción de orthonormality de los vectores $a_i$ estar relajado, o implícitamente cumplido en virtud de otras consideraciones? Por otra parte tenemos a un lugar específico de la $\bf A$ de la matriz, haciendo que los resultados menos generalizables.


Concepto De Cuatro:

Una proyección sobre qué?

Sobre el subespacio generado por las columnas de espacio de $\bf X$ (creo OLS proyección de ${\bf A}\color{gray}{(A^\top A)^{-1}} {\bf A^\top}$). Pero, ¿qué es $\bf X$ aquí? Otro que $\bf a_i^\top$, y desde $\bf a_i$ es un vector fila, $\bf a_i^\top$ es un vector columna.

Así que nosotros estamos haciendo orto-proyecciones en la columna espacio de $\bf A^\top$, en $\mathbb R^{\color{blue}{\bf n}}$.

Tenía la esperanza de que la última frase podría haber sido, "... en la columna de espacio de $\bf A$...


¿Cuáles son las implicaciones?

2voto

Supongamos que se nos da una matriz$\mathrm A$ que tiene rango de columna completa . Su SVD es de la forma.

PS

donde la matriz cero puede estar vacía. Tenga en cuenta que

PS

solo puede ser una matriz de proyección si$$\mathrm A = \mathrm U \Sigma \mathrm V^T = \begin{bmatrix} \mathrm U_1 & \mathrm U_2\end{bmatrix} \begin{bmatrix} \hat\Sigma\\ \mathrm O\end{bmatrix} \mathrm V^T$. Sin embargo,

PS

Siempre es una matriz de proyección.

1voto

mattd Puntos 21

Usando la notación de la matriz de bloques, podemos escribir$$A = \begin{bmatrix} a_1 \\ a_2 \\ \vdots \\ a_n \\ \end{bmatrix} $$ and $$A^T = \left[a_1^T a_2^T \dots a_n^T \right], $ $ donde$a_1,...,a_n$ son las filas de$A$.

Luego$A^TA = a_1^Ta_1+\dots a_n^Ta_n$, que es una suma de proyecciones ortogonales en las direcciones$a_1^T,...,a_n^T,$ si también asumimos que$|a_1| = ... = |a_n| = 1$. Si$A$ es invertible, entonces$a_1,...,a_n$ son linealmente independientes, por lo que$A^TA$ puede verse como una suma de$n$ proyecciones ortogonales en$n$ direcciones linealmente independientes en$\mathbb{R}^n.$

Probablemente debería ser un comentario, pero obviamente no pude ajustar las ecuaciones en ese formato.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X