Creo que tengo un problema de comprensión del PCA:
Me gustaría utilizar esta técnica para reducir el número de características de mi problema. Originalmente tengo 10.000 características y 500 muestras. Sin embargo, el uso de PCA limitará mi número de componentes principales al menor entre el número de muestras (columnas de mi matriz de datos) y el número de características (filas de esta matriz). Por tanto, el 100% de la varianza podría explicarse mediante 500 componentes. Pero 500 componentes son mucho menos que 10.000 características... ¿Cómo se puede explicar toda la varianza con menos del número de muestras (que no tiene nada que ver con el número de características)?