Me he encontrado con un escenario donde tengo 10 señales/persona para 10 personas (para 100 muestras) que contiene 14000 puntos de datos (dimensiones) que necesito para pasar a un clasificador. Me gustaría reducir la dimensionalidad de los datos y de la PCA, parece ser el camino para hacerlo. Sin embargo, sólo he sido capaz de encontrar ejemplos de la PCA, donde el número de muestras es mayor que el número de dimensiones. Estoy usando un PCA de la aplicación que se encuentra en el Pc utilizando enfermedad vesicular porcina. Cuando me pase a mi 100x14000 conjunto de datos hay 101 PCs devuelto por lo que la gran mayoría de las dimensiones, obviamente, son ignorados. El programa indica los primeros 6 PCs contienen el 90% de la varianza.
Es una suposición razonable de que estos 101 PCs contienen prácticamente todos los de la varianza y el resto de dimensiones son neglectable?
Uno de los artículos que he leído afirma que, con un similar (aunque ligeramente inferior calidad) conjunto de datos de mi cuenta, ellos fueron capaces de reducir 4500 dimensiones 80 retener el 96% de la información original. El papel de la mano-ondas en los detalles de la PCA técnica utilizada, sólo 3100 muestras disponibles, y tengo razones para creer menos muestras que se utilizaron para llevar a cabo realmente la PCA (para eliminar el sesgo de la fase de clasificación).
Me estoy perdiendo algo o es esta la manera en la que el PCA se utiliza con alta dimensionalidad-bajo tamaño de la muestra del conjunto de datos? Cualquier comentario sería muy apreciada.