En el enfoque que usted está considerando, usted no tendrá la 'verdadera' Pc a menos que usted está utilizando una síntesis de conjunto de datos donde suelo la verdad es que ya se sabe.
Error de reconstrucción es una manera de medir el rendimiento. De hecho, una manera de pensar acerca de la PCA es que minimiza esta cantidad en el conjunto de entrenamiento. El uso de la PCA para el proyecto de los puntos en el espacio de pocas dimensiones. Entonces, la reconstrucción de la original de los puntos de la proyección de la baja representaciones tridimensionales de nuevo en el original, de alta el espacio tridimensional. La distancia entre los puntos originales y sus reconstrucciones es inversamente proporcional a lo bien que el modelo captura la estructura de los datos. Esto está relacionado con el punto de vista de la PCA como con pérdida de compresión de datos. Cuando la baja dimensiones de la representación, se retiene más información, los puntos originales puede ser reconstruida de forma más precisa. La reconstrucción de error también puede ser usada para calcular el comúnmente utilizado medida de rendimiento $R^2$ (fracción de la varianza explicada).
Validación cruzada debe ser utilizado en lugar de medir la reconstrucción de error para los datos de entrenamiento. Esto es porque el uso de los datos de entrenamiento tanto para ajustar el modelo y medir el rendimiento de dar un optimista, estimación sesgada. En su lugar, la validación cruzada intenta estimar el rendimiento en el futuro, invisibles, los datos extraídos de la misma distribución que los datos de entrenamiento. Mediante validación cruzada, tendría que dividir los datos en conjuntos de pruebas y entrenamiento, entrenar el modelo PCA en cada conjunto de entrenamiento, a continuación, utilizarla para calcular el error de reconstrucción de la correspondiente prueba.
El propósito de esta cantidad es para dar una métrica de rendimiento. Pero, no es apropiado para seleccionar el número de componentes tratando de reducir al mínimo, debido a que el error disminuye con el número de componentes. Esto es lo esperado, ya que más información se conserva. Si el objetivo es seleccionar el número de componentes, hay un número de métodos a utilizar en su lugar. @ameba el post de aquí se describe cómo hacer esto utilizando validación cruzada.
Computación en la reconstrucción de error para el conjunto de pruebas
Para un determinado validación cruzada veces, decir el conjunto de entrenamiento es $X = \{x_1, \dots, x_n\}$, el conjunto de pruebas es $X' = \{x'_1, \dots, x'_m\}$, y cada punto se representa como un vector columna. Utilice el conjunto de entrenamiento para adaptarse a la PCA modelo, que consiste en la media de $\mu$, los pesos $W$, y el número de $k$ de componentes a retener. Si usted está usando un algoritmo para elegir a $k$, que puede diferir a través de conjuntos de entrenamiento (lo cual es correcto; lo que está siendo probado aquí está todo el ajuste del modelo de procedimiento). Si usted también está usando validación cruzada para elegir a $k$, usted tiene que dividir el conjunto de entrenamiento en la formación complementaria/conjuntos de validación (es decir, realizar anidada validación cruzada).
Para obtener la baja representación tridimensional de la $y'$ de un punto de prueba $x'$, la primera vez que restar la media, luego se multiplica por el peso:
$$y' = W (x_i' - \mu)$$
Para reconstruir el original punto de prueba de la parte baja de dimensiones de la representación, lo que multiplica las bajas dimensiones de la representación por la transpuesta de pesos, a continuación, añadir la media vuelta de nuevo:
$$\hat{x}' = W^T y' + \mu$$
La baja dimensiones de la representación de los descartes de la información, por lo que la reconstrucción no será perfecto. Su error puede ser medido por la distancia Euclídea al cuadrado entre el original punto de prueba y la reconstrucción:
$$\|x' - \hat{x}'\|^2$$
Por lo tanto, el cuadrático medio error de reconstrucción para todo el conjunto de prueba es:
$$L(W, \mu, X') =
\frac{1}{m} \sum_{i=1}^m
\left \|x_i' - \left ( W^T W (x'_i - \mu) + \mu \right ) \right \|^2$$
Repita este procedimiento para todos los de la validación cruzada de los pliegues. Luego tomar la media del error de reconstrucción a través de conjuntos de la prueba, ponderado por el número de puntos en cada prueba.
Ejemplo de la parcela
Para la intuición geométrica, he aquí un ejemplo con 2 dimensiones y 1 de componentes principales. El gris de los puntos son los datos de entrenamiento. Los puntos azules son los datos de prueba, y el naranja son puntos de sus reconstrucciones (en la práctica, habría muchos más puntos de prueba de esto). El mean squared error de reconstrucción es el promedio del cuadrado de la longitud de las líneas punteadas.
La fracción de la varianza explicada
$R^2$ (la fracción de la varianza explicada) es otra forma de medir el rendimiento. Conjunto de pruebas de $R^2$ puede ser calculada a partir de la prueba de conjunto de la reconstrucción de error:
$$R^2(W, \mu, X') =
1 - \frac{
L(W, \mu, X')
}{
\sum_{i=1}^m \|x'_i - \langle X' \rangle \|^2
}$$
donde $\langle X' \rangle$ es la media del conjunto de pruebas, por lo que el denominador de las medidas de la media del cuadrado de la distancia de los puntos de prueba a su media (que es igual a la suma de la varianza a lo largo de cada dimensión).