5 votos

¿Disminuye necesariamente la fracción de varianza explicada en el primer componente del ACP si se eliminan características del conjunto de datos?

Al realizar un ACP en un conjunto de datos determinado y registrar la fracción de la varianza total explicada por los componentes, ¿disminuirá esta fracción para el primer componente si se eliminan una o más características (que estaban presentes en las cargas del componente) y se vuelve a calcular el ACP?

Me lo preguntó uno de mis alumnos. Le dije que sí, pero ahora tengo una duda ...

6voto

jldugger Puntos 7490

A menudo ocurrirá, pero no necesariamente. Cuando la característica que se elimina constituye la mayor parte del primer PC, entonces básicamente se está haciendo PCA en todo lo demás. En nuevo primer PC estará cerca del segundo PC original y su fracción de la varianza total podría ser casi cualquier cosa $1/(d-1)$ o mayor cuando hay $d-1$ variables a la izquierda. Para $d\ge 3$ esto plantea la posibilidad de una disminución de la proporción de varianza.

Elaboremos, pues, el ejemplo más pequeño posible, y hagámoslo sencillo. Empiezo con un gran vector $(10,0,0)^\prime.$ Ahora una dos vectores simples más pequeños, digamos

$$X = \pmatrix{10&0&0\\0&1&1\\0&1&-1}.$$

Si se aplica directamente el ACP a esta matriz (sin centrado ni escalado), se observa que el primer PC representa $100/(100+2+2) \approx 96.15\%$ de la varianza total. Al eliminar la primera columna se obtienen dos columnas ortogonales de igual tamaño con dos PC cada una (por lo tanto) que contribuyen $50\%$ al total.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X