Si los vectores son ortogonales, usted puede tomar la varianza de la proyección escalar de los datos en cada vector. Digamos que tenemos una matriz de datos $X$ ($n$ los puntos x $d$ dimensiones), y un conjunto de columnas ortonormales de vectores $\{v_1, ..., v_k\}$. Supone que los datos están en el centro. La varianza de los datos a lo largo de la dirección de cada vector $v_i$ está dado por $\text{Var}(X v_i)$.
Si hay tantos vectores como dimensiones originales ($k = d$), la suma de las varianzas de las proyecciones será igual a la suma de las desviaciones a lo largo de las dimensiones originales. Pero, si hay menos vectores de dimensiones originales ($k < d$), la suma de las varianzas generalmente será menor que el de la PCA. Una manera de pensar de la PCA es que se maximiza esta misma cantidad (sujeto a la restricción de que los vectores son ortogonales).
Puede que también desee calcular el $R^2$ (la fracción de la varianza explicada), que se utiliza a menudo para medir qué tan bien un número determinado de PCA dimensiones representan los datos. Deje $S$ representan la suma de las desviaciones a lo largo de cada dimensión original de los datos. Entonces:
$$R^2 = \frac{1}{S}\sum_{i=1}^{k} \text{Var}(X v_i)$$
Esto es sólo la relación de la suma de las varianzas de las proyecciones y la suma de las varianzas a lo largo de las dimensiones originales.
Otra forma de pensar acerca de la $R^2$ es que mide la bondad de ajuste si tratamos de reconstruir los datos de las proyecciones. A continuación, toma la forma familiar se utiliza para otros modelos (por ejemplo, la regresión). Dicen que el $i$th punto de datos es un vector de fila $x_{(i)}$. Almacén de cada uno de los vectores de la base a lo largo de las columnas de la matriz $V$. La proyección de la $i$th punto de datos en todos los vectores en $V$ está dado por $p_{(i)} = x_{(i)} V$. Cuando hay menos vectores de dimensiones originales ($k < d$), se puede pensar en esto como la asignación de los datos de forma lineal en un espacio de dimensionalidad reducida. Podemos reconstruir aproximadamente el punto de datos en las bajas dimensiones de la representación mediante la asignación de nuevo en el espacio de datos original: $\hat{x}_{(i)} = p_{(i)} V^T$. La media del cuadrado de la reconstrucción de error es la media del cuadrado de la distancia Euclidiana entre cada uno de los originales de punto de datos y su reconstrucción:
$$E = \frac{1}{n} \|x_{(i)} - \hat{x}_{(i)}\|^2$$
La bondad de ajuste $R^2$ se define de la misma manera como para otros modelos (es decir, como uno menos la fracción de la varianza inexplicada). Dado el error cuadrático medio del modelo de ($\text{MSE}$) y la varianza total del modelo de la cantidad ($\text{Var}_{\text{total}}$), $R^2 = 1 - \text{MSE} / \text{Var}_{\text{total}}$. En el contexto de nuestra reconstrucción de datos, el error cuadrático medio es $E$ (el error de reconstrucción). La varianza total es $S$ (la suma de las desviaciones a lo largo de cada dimensión de los datos). Así:
$$R^2 = 1 - \frac{E}{S}$$
$S$ es también igual a la media de la distancia Euclídea al cuadrado de cada punto de datos a la media de todos los puntos de datos, por lo que podemos pensar también en $R^2$ como comparar el error de reconstrucción a la de los "peores modelo' que siempre devuelve la media como la reconstrucción.
Las dos expresiones para $R^2$ son equivalentes. Como en el anterior, si hay tantos vectores como dimensiones originales ( $k = d$ ), a continuación, $R^2$ será uno. Pero, si $k < d$, $R^2$ generalmente será menor que el de la PCA. Otra forma de pensar acerca de la PCA es que minimiza el cuadrado de la reconstrucción de error.