He estado comparando diferentes implementaciones de PCA (algunas mediante el cálculo explícito de la matriz de covarianza, otras con SVD aleatorio/truncado) en términos de velocidad, y ahora quería comparar lo bueno diferentes algoritmos aleatorios aproximan la solución exacta (a la precisión numérica) a través de la matriz de covarianza.
¿Hay alguna métrica sugerida para evaluar la similitud de dos bases de vectores propios resultantes, es decir, la $k$ ¿vectores propios devueltos?
Mi intuición sería afirmar que los vectores tienen la misma "dirección general" (es decir, en caso de que la primera dimensión no coincida con las direcciones, un vector estaría volteado), y luego calcular
- la norma de Frobenius de la matriz de valor absoluto $abs(A)=abs(X-V)$ , donde $X$ es la solución exacta y $V$ la matriz resultante de un algoritmo aleatorio que contiene los vectores propios, o
- Una versión modificada/ponderada de la distancia euclidiana, sobre los vectores pares. Es decir, $$ \mathcal{L}(X,V)=\sum_{j=0}^k \omega_j \sum_{i=0}^n \sqrt{(a_{ji}-x_{ji})^2}$$ donde $\omega_j$ es un peso para el $j$ -Cuarto PC, $n$ la dimensión de los vectores propios, y $a_{ji}$ y $x_{ji}$ los elementos de las matrices de vectores propios, respectivamente.
La razón de la segunda versión podría ser que quiero tener una mejor aproximación para los primeros componentes (ya que explican más de la varianza; tal vez incluso ponderarlos en función de esa varianza explicada), y no preocuparme tanto por el último porcentaje de varianza restante repartido en múltiples dimensiones, acumulando potencialmente una gran pérdida.