Processing math: 50%

3 votos

Si el número de muestras es menor que el número de características, ¿cómo puede explicarse toda la varianza en PCA por menos de n ¿Componentes?

Creo que tengo un problema de comprensión del PCA:

Me gustaría utilizar esta técnica para reducir el número de características de mi problema. Originalmente tengo 10.000 características y 500 muestras. Sin embargo, el uso de PCA limitará mi número de componentes principales al menor entre el número de muestras (columnas de mi matriz de datos) y el número de características (filas de esta matriz). Por tanto, el 100% de la varianza podría explicarse mediante 500 componentes. Pero 500 componentes son mucho menos que 10.000 características... ¿Cómo se puede explicar toda la varianza con menos del número de muestras (que no tiene nada que ver con el número de características)?

5voto

Enrico Puntos 2439

Esto se debe a que la dimensionalidad intrínseca de la muestra es mucho menor. Un conjunto de 500 puntos se situará en un hiperplano de menos de 500 dimensiones. Para entenderlo, hay que tener en cuenta que un par de puntos se situará en una línea incluso en un espacio tridimensional. Esta línea puede tratarse como un subespacio en consideración.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X