5 votos

Cómo evaluar estimado de componentes principales?

Estoy interesado en evaluar estimado de componentes principales. Los componentes son estimados a partir de una muestra y quiero evaluar cuán bueno mi estimado principales componentes. Hay que comúnmente se utilizan enfoques para esto? He estado tratando de encontrar algo de literatura sobre este tema, con poco éxito.

Yo estaba pensando en simular con algún tipo de norma L2, tal vez $L_2=\|\hat{y}-y\|^2=\|\hat{\Pi}x-\Pi x\|^2$ donde $\hat{y}$ mi estimado PCs ($\hat{\Pi}$ mi estimado PC coeficientes) y $y$ son los "verdaderos" PCs ($\Pi$ es la "verdadera" de PC coeficientes). A pesar de que pensé es mejor comprobar si hay estándar de maneras de hacer esto primero.

3voto

throwaway Puntos 18

En el enfoque que usted está considerando, usted no tendrá la 'verdadera' Pc a menos que usted está utilizando una síntesis de conjunto de datos donde suelo la verdad es que ya se sabe.

Error de reconstrucción es una manera de medir el rendimiento. De hecho, una manera de pensar acerca de la PCA es que minimiza esta cantidad en el conjunto de entrenamiento. El uso de la PCA para el proyecto de los puntos en el espacio de pocas dimensiones. Entonces, la reconstrucción de la original de los puntos de la proyección de la baja representaciones tridimensionales de nuevo en el original, de alta el espacio tridimensional. La distancia entre los puntos originales y sus reconstrucciones es inversamente proporcional a lo bien que el modelo captura la estructura de los datos. Esto está relacionado con el punto de vista de la PCA como con pérdida de compresión de datos. Cuando la baja dimensiones de la representación, se retiene más información, los puntos originales puede ser reconstruida de forma más precisa. La reconstrucción de error también puede ser usada para calcular el comúnmente utilizado medida de rendimiento $R^2$ (fracción de la varianza explicada).

Validación cruzada debe ser utilizado en lugar de medir la reconstrucción de error para los datos de entrenamiento. Esto es porque el uso de los datos de entrenamiento tanto para ajustar el modelo y medir el rendimiento de dar un optimista, estimación sesgada. En su lugar, la validación cruzada intenta estimar el rendimiento en el futuro, invisibles, los datos extraídos de la misma distribución que los datos de entrenamiento. Mediante validación cruzada, tendría que dividir los datos en conjuntos de pruebas y entrenamiento, entrenar el modelo PCA en cada conjunto de entrenamiento, a continuación, utilizarla para calcular el error de reconstrucción de la correspondiente prueba.

El propósito de esta cantidad es para dar una métrica de rendimiento. Pero, no es apropiado para seleccionar el número de componentes tratando de reducir al mínimo, debido a que el error disminuye con el número de componentes. Esto es lo esperado, ya que más información se conserva. Si el objetivo es seleccionar el número de componentes, hay un número de métodos a utilizar en su lugar. @ameba el post de aquí se describe cómo hacer esto utilizando validación cruzada.

Computación en la reconstrucción de error para el conjunto de pruebas

Para un determinado validación cruzada veces, decir el conjunto de entrenamiento es $X = \{x_1, \dots, x_n\}$, el conjunto de pruebas es $X' = \{x'_1, \dots, x'_m\}$, y cada punto se representa como un vector columna. Utilice el conjunto de entrenamiento para adaptarse a la PCA modelo, que consiste en la media de $\mu$, los pesos $W$, y el número de $k$ de componentes a retener. Si usted está usando un algoritmo para elegir a $k$, que puede diferir a través de conjuntos de entrenamiento (lo cual es correcto; lo que está siendo probado aquí está todo el ajuste del modelo de procedimiento). Si usted también está usando validación cruzada para elegir a $k$, usted tiene que dividir el conjunto de entrenamiento en la formación complementaria/conjuntos de validación (es decir, realizar anidada validación cruzada).

Para obtener la baja representación tridimensional de la $y'$ de un punto de prueba $x'$, la primera vez que restar la media, luego se multiplica por el peso:

$$y' = W (x_i' - \mu)$$

Para reconstruir el original punto de prueba de la parte baja de dimensiones de la representación, lo que multiplica las bajas dimensiones de la representación por la transpuesta de pesos, a continuación, añadir la media vuelta de nuevo:

$$\hat{x}' = W^T y' + \mu$$

La baja dimensiones de la representación de los descartes de la información, por lo que la reconstrucción no será perfecto. Su error puede ser medido por la distancia Euclídea al cuadrado entre el original punto de prueba y la reconstrucción:

$$\|x' - \hat{x}'\|^2$$

Por lo tanto, el cuadrático medio error de reconstrucción para todo el conjunto de prueba es:

$$L(W, \mu, X') = \frac{1}{m} \sum_{i=1}^m \left \|x_i' - \left ( W^T W (x'_i - \mu) + \mu \right ) \right \|^2$$

Repita este procedimiento para todos los de la validación cruzada de los pliegues. Luego tomar la media del error de reconstrucción a través de conjuntos de la prueba, ponderado por el número de puntos en cada prueba.

Ejemplo de la parcela

Para la intuición geométrica, he aquí un ejemplo con 2 dimensiones y 1 de componentes principales. El gris de los puntos son los datos de entrenamiento. Los puntos azules son los datos de prueba, y el naranja son puntos de sus reconstrucciones (en la práctica, habría muchos más puntos de prueba de esto). El mean squared error de reconstrucción es el promedio del cuadrado de la longitud de las líneas punteadas.

enter image description here

La fracción de la varianza explicada

$R^2$ (la fracción de la varianza explicada) es otra forma de medir el rendimiento. Conjunto de pruebas de $R^2$ puede ser calculada a partir de la prueba de conjunto de la reconstrucción de error:

$$R^2(W, \mu, X') = 1 - \frac{ L(W, \mu, X') }{ \sum_{i=1}^m \|x'_i - \langle X' \rangle \|^2 }$$

donde $\langle X' \rangle$ es la media del conjunto de pruebas, por lo que el denominador de las medidas de la media del cuadrado de la distancia de los puntos de prueba a su media (que es igual a la suma de la varianza a lo largo de cada dimensión).

1voto

andynormancx Puntos 234

El problema con el error de reconstrucción dado en el user20160 la respuesta es que cualquier conjunto de componentes principales que abarca el mismo subespacio tendrá el mismo error de reconstrucción. Si su objetivo es la reconstrucción, entonces está bien.

Pero, si desea que cualquier subconjunto más pequeño de sus componentes principales a ser tan buena como sea posible para la reconstrucción, que es lo PCA también promete, luego de que la solución no ayuda. De hecho, se puede cuantificar cómo de buena es un conjunto de componentes principales es incluso si los componentes abarcan la totalidad del subespacio.

He aquí cómo. Todo de la misma manera como en user20160 la respuesta. Sin embargo, vamos a centro de todo, así que nos podemos olvidar de los medios. Deje $S$ de la varianza de los datos:

\begin{align} S &\triangleq Var(x) \end{align}

También voy a usar la misma notación como user20160 excepto mi $W$ va a coincidir con el citado documento a continuación:

\begin{align} W &\triangleq \Gamma^{-\frac12}U^T \end{align}

Mi $U$ es user20160 $W$. Es el ortogonal de la matriz que la gira en la dirección de mayor variación de los ejes principales; estas son los vectores propios de la varianza de la matriz de $S$. $\Gamma$ es la magnitud de las desviaciones en cada dirección; estos son los autovalores de a $S$. Con esta definición, $W$ es un blanqueamiento de transformación, y queremos saber cómo bien $W$ es.

Deje que la varianza de la matriz definida por los datos de prueba se \begin{align} S' \triangleq Var(x') \end{align}

Definir la cruz-matriz de covarianza \begin{align} \Phi &\triangleq Cov(y', x') \\ &= Cov(Wx', x') \\ &= WS' \end{align}

Definir la suma de los cuadrados de-cruz-covarianzas: \begin{align} \phi_i &\triangleq \sum_{j=1}^d \Phi_{ij}^2 \\ &= \sum_{j=1}^d Cov(y'_i, x'_i)^2. \end{align}

A continuación, se ha demostrado† que PCA es el único de blanqueamiento de transformación que maximiza $\phi_i$ sujeto a la restricción de que ellos son, en orden decreciente. En los datos de entrenamiento, esta suma se multiplicarían. En los datos de prueba, esta suma de cuadrados de-cruz-covarianzas cuantifica la calidad de su componentes.

† A. Kessy, A. Lewin, y K. Strimmer, "Óptimo de blanqueamiento y de descorrelación," El Estadístico Americano, 2017 (arXiv: https://arxiv.org/abs/1512.00809)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X