Una descomposición de valores singulares (SVD) de $X$ lo expresa como
$$X = U D V^\prime$$
donde $U$ es un $n\times r$ matriz cuyas columnas son mutuamente ortonormales, $V$ es un $p\times r$ cuyas columnas son mutuamente ortonormales, y $D$ es un $r\times r$ matriz diagonal con valores positivos (los "valores singulares" de $X$ ) en la diagonal. Necesariamente $r$ --que es el rango de $X$ --no puede ser mayor que $n$ o $p$ .
A partir de ahí, calculamos
$$X^\prime X = (U D V^\prime)^\prime U D V^\prime = V D^\prime U^\prime U D V^\prime = V D^2 V^\prime$$
et
$$ X X^\prime= U D V^\prime (U D V^\prime)^\prime= U D V^\prime V D^\prime U^\prime= U D^2 U^\prime.$$
Aunque podemos recuperar $D^2$ diagonalizando cualquiera de $X^\prime X$ o $X X^\prime$ el primero no da información sobre $U$ y este último no da ninguna información sobre $V$ . Sin embargo, $U$ y $V$ son completamente independientes entre sí--empezando por uno de ellos, junto con $D$ se puede elegir la otra arbitrariamente (respetando las condiciones de ortonormalidad) y construir una matriz válida $X$ . Por lo tanto $D^2$ contiene todos la información común a las matrices $X^\prime X$ y $X X^\prime$ .
Hay una bonita interpretación geométrica que ayuda a que resulte convincente. La SVD nos permite ver cualquier transformación lineal $T_X$ (representada por la matriz $X$ ) de $\mathbb{R}^p$ a $\mathbb{R}^n$ en términos de tres transformaciones lineales fáciles de entender:
$V$ es la matriz de una transformación $T_V:\mathbb{R}^r \to \mathbb{R}^p$ que es uno a uno (no tiene núcleo) e isométrico. Es decir, gira $\mathbb{R}^r$ en un $r$ -subespacio dimensional $T_V(\mathbb{R}^r)$ de un $p$ -espacio dimensional.
$U$ es la matriz de una transformación isométrica de uno a uno $T_U:\mathbb{R}^r\to \mathbb{R}^n$ .
$D$ reescala positivamente el $r$ ejes de coordenadas en $\mathbb{R}^r$ correspondiente a una transformación lineal $T_D$ que deforma la esfera unitaria (utilizada como referencia) en un elipsoide sin girarlo .
La transposición de $V$ , $V^\prime$ corresponde a una transformación lineal $T_{V^\prime}:\mathbb{R}^p\to\mathbb{R}^r$ que acaba con todos los vectores en $\mathbb{R}^p$ que son perpendiculares a $T_V(\mathbb{R}^r)$ . Por lo demás, gira $T_V(\mathbb{R}^r)$ en $\mathbb{R}^r$ . De forma equivalente, se puede pensar en $T_{V^\prime}$ como "ignorar" cualquier dirección perpendicular y establecer un sistema de coordenadas ortonormal dentro de $T_V(\mathbb{R}^r) \subset \mathbb{R}^p$ . $T_D$ actúa directamente sobre ese sistema de coordenadas, expandiéndose en diversas cantidades (especificadas por los valores singulares) a lo largo de los ejes de coordenadas determinados por $V$ . $T_U$ asigna el resultado a $\mathbb{R}^n$ .
La transformación lineal asociada a $X^\prime X$ actúa en efecto sobre $T_V(\mathbb{R}^r)$ a través de dos "viajes de ida y vuelta": $T_X$ amplía las coordenadas en el sistema determinado por $V$ por $T_D$ y luego $T_{X^\prime}$ lo hace todo de nuevo. Igualmente, $X X^\prime$ hace exactamente lo mismo con el $r$ -subespacio dimensional de $\mathbb{R}^n$ establecido por el $r$ columnas ortogonales de $U$ . Así, el papel de $V$ es describir un marco en un subespacio de $\mathbb{R}^p$ y el papel de $U$ es describir un marco en un subespacio de $\mathbb{R}^n$ . La matriz $X^\prime X$ nos da información sobre el marco en el primer espacio y $X X\prime$ nos indica el encuadre en el segundo espacio, pero esos dos marcos no tienen por qué tener ninguna relación entre sí.