10 votos

¿Por qué queremos maximizar la varianza en el análisis de componentes principales?

Entiendo que en PCA, maximizar la varianza es para preservar la mayor variabilidad (o información) posible durante el proceso de reducción de la dimensión de los datos", y también leí la pregunta anterior: https://stackoverflow.com/questions/12395542/why-do-we-maximize-variance-during-principal-component-analysis

Sin embargo, todavía no entiendo muy bien por qué queremos maximizar la varianza desde la perspectiva de los momentos Por ejemplo, ¿por qué no maximizamos los momentos de orden superior, por ejemplo, maximizando conjuntamente múltiples momentos de orden par (según algún esquema de ponderación deseado), por qué sólo los segundos momentos?

13voto

Ludwi Puntos 188

Una de las respuestas es que la maximización de la varianza minimiza el error al cuadrado, un objetivo quizá más inmediato.

Supongamos que queremos reducir la dimensionalidad de un número de puntos de datos $\mathbf{x}_1, ..., \mathbf{x}_N$ a 1 proyectando sobre un vector unitario $\mathbf{v}$ y queremos que el error al cuadrado sea pequeño:

$$\underset{\mathbf{v}}{\text{minimize}} \, \sum_{n = 1}^N ||\mathbf{x}_n - (\mathbf{v}^\top \mathbf{x}_n)\mathbf{v}||^2 \text{ subject to } ||\mathbf{v}|| = 1$$

Este problema de optimización puede convertirse en el problema equivalente

$$\underset{\mathbf{v}}{\text{maximize}} \,\, \mathbf{v}^\top \mathbf{C}\mathbf{v} \text{ subject to } ||\mathbf{v}|| = 1,$$ donde $\mathbf{C} = 1/N\sum_{n = 1}^N \mathbf{x}_n\mathbf{x}_n^\top$ . Es decir, minimizar el error al cuadrado equivale a maximizar la varianza en la dirección de $\mathbf{v}$ (para datos centrados).

Otra respuesta es que PCA está tratando de ajustar un modelo gaussiano a los datos ( El error cuadrático y el modelo gaussiano están estrechamente relacionados ). Si intentara ajustar otro modelo a sus datos, observaría también otros momentos (por ejemplo, la curtosis adquiere importancia al ajustar un modelo mediante análisis de componentes independientes ).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X