18 votos

PCA cuando la dimensionalidad es mayor que el número de muestras

Me he encontrado con un escenario donde tengo 10 señales/persona para 10 personas (para 100 muestras) que contiene 14000 puntos de datos (dimensiones) que necesito para pasar a un clasificador. Me gustaría reducir la dimensionalidad de los datos y de la PCA, parece ser el camino para hacerlo. Sin embargo, sólo he sido capaz de encontrar ejemplos de la PCA, donde el número de muestras es mayor que el número de dimensiones. Estoy usando un PCA de la aplicación que se encuentra en el Pc utilizando enfermedad vesicular porcina. Cuando me pase a mi 100x14000 conjunto de datos hay 101 PCs devuelto por lo que la gran mayoría de las dimensiones, obviamente, son ignorados. El programa indica los primeros 6 PCs contienen el 90% de la varianza.

Es una suposición razonable de que estos 101 PCs contienen prácticamente todos los de la varianza y el resto de dimensiones son neglectable?

Uno de los artículos que he leído afirma que, con un similar (aunque ligeramente inferior calidad) conjunto de datos de mi cuenta, ellos fueron capaces de reducir 4500 dimensiones 80 retener el 96% de la información original. El papel de la mano-ondas en los detalles de la PCA técnica utilizada, sólo 3100 muestras disponibles, y tengo razones para creer menos muestras que se utilizaron para llevar a cabo realmente la PCA (para eliminar el sesgo de la fase de clasificación).

Me estoy perdiendo algo o es esta la manera en la que el PCA se utiliza con alta dimensionalidad-bajo tamaño de la muestra del conjunto de datos? Cualquier comentario sería muy apreciada.

8voto

Uri Puntos 111

Si $n$ es el número de puntos y $p$ es el número de dimensiones y $n \leq p$, entonces el número de componentes principales con los no-cero, la varianza no puede exceder $n$ (cuando se hace de la PCA en los datos raw) o $n-1$ (cuando se hace de la PCA en el centrado de datos - como de costumbre).

8voto

cbeleites Puntos 12461

Me gustaría mirar el problema desde un ángulo ligeramente diferente: lo complejo que un modelo puede pagar con sólo 10 temas / 100 muestras?

Y la pregunta que me suelen contestar con: mucho menos de 100 PCs. Tenga en cuenta que yo trabajo en un tipo de datos diferente (espectros), así que las cosas pueden variar un poco. En mi campo de un conjunto común sería el uso de 10 o 25 o 50 PCs calcula a partir de S (1000) espectros de O (10) de los sujetos.

Esto es lo que yo haría:

  • Mira la varianza cubiertos por esos 100 PCs. Por lo general encontramos que sólo unos pocos componentes que realmente contribuyen a la varianza de los datos.

  • Yo preero PLS como pre-tratamiento para la clasificación de más de PCA como se hace un trabajo mucho mejor en el ordenamiento de las direcciones que tienen una alta variación que no ayuda en la clasificación (en mi caso, que podría ser el enfoque de las variaciones, diferentes espesor de la muestra, ...). En mi experiencia, a menudo me encuentro similar clasificadores con 10 PLS variables latentes o 25 a 50 PCs.

  • La validación de las muestras deben ser procesadas con el PCA de rotación calculado a partir del conjunto de entrenamiento, en caso contrario la validación puede (y en tales casos extremos como el tuyo, muy probablemente lo hará) tienen un gran sesgo optimista.
    En otras palabras, si usted fuera-de-arranque o de la validación cruzada, la PCA o PLS preprocesamiento se debe calcular para cada tren/prueba de combinación por separado.

6voto

blahdiblah Puntos 1419

Viniendo en esto desde un ángulo diferente:

En el PCA, está la aproximación de la matriz de covarianza por un $k$-rango de aproximación (es decir, sólo mantener la parte superior $k$ de componentes principales). Si desea que la imagen de este, la covarianza vectores se proyectan ortogonalmente hacia abajo en un menor dimensional lineal subespacio. Desde sólo tienes 100 puntos de datos, la muestra de covarianza necesariamente se encuentra en un subespacio de dimensión $\leq$ 100 (en realidad, como ttnphns demuestra, 99).

Por supuesto, el punto es mantener el gran Pc y deshacerse de los pequeños para evitar el ajuste de ruido. Usted dijo: 6 de cuentas para el 96% de la varianza, por lo que suena bien. Otra técnica sería la de hacer la validación cruzada y averiguar qué tan alto $k$ se presenta antes que el error en la retención de los datos aumenta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X