Deje S ser simétrica positiva semidefinite matriz (es decir, uno con todos los autovalores reales y no negativos). Entonces existe una matriz ortogonal U (con sus columnas forman una base ortonormales) tal que U⊤SU es la diagonal; esta base es de curso dado por los vectores propios de a S.
Considere la posibilidad de otra base V consta de unidad de longitud, pero no ortogonal de vectores (de modo que las columnas de a V tiene unidad de longitud, pero no son ortogonales) que también diagonalizes S, es decir, V⊤SV es diagonal.
Tengo la sospecha de que se cumple lo siguiente: Tr(V⊤SV)≤Tr(S)=Tr(U⊤SU). Es esto cierto? Si es así, ¿cómo puede ser demostrado?
Por otra parte, es cierto que la igualdad se alcanza si V es ortogonal?
Actualización: Tras cierta confusión en los comentarios, me gustaría aclarar que estoy pensando en S a representar una forma bilineal, no de una forma lineal. Así que con un cambio de base se transforma como V⊤SV e no V−1SV.
Actualización 2
Permítanme ilustrar dónde esta pregunta viene de; podría brindar una mayor intuición. S es en realidad una matriz de covarianza de algunos datos (es decir, tengo un conjunto de puntos de datos xi∈RN, e S=∑ixix⊤i, hasta un factor constante). Seguimiento de S es la variación total de los datos, y, por supuesto, se mantiene el mismo si el sistema de coordenadas girado. Ahora para cualquier vector unitario v, la variación de la proyección de los datos en el eje definido por este vector es igual a v⊤Sv. Si me tome N ortogonal de vectores unitarios, entonces la suma de estas desviaciones es igual a la varianza total. Estoy interesado en la situación cuando me tome N no-ortogonal de vectores unitarios, pero ellos son los elegidos de tal manera que todas las proyecciones de los datos sobre estos vectores tienen una correlación cero (o covarianza). Esta condición es equivalente a V⊤SV diagonal. Esto significa que mis proyecciones son "independientes"; por lo tanto estoy bastante seguro de que sus varianzas juntos no puede superar el total de la varianza total de la varianza debe dar la máxima cantidad de varianza que puede ser "distribuido" entre componentes independientes (con un máximo que se logra con componentes principales).