8 votos

El análisis del componente principal (PCA) da como resultado sinusoides, ¿cuál es la causa subyacente?

De fondo

Estoy analizando un conjunto de datos de $M$ mediciones de flujo (volumen por tiempo). Los flujos que van de cero mL/s gradualmente a los valores más altos y de vuelta a cero de nuevo, por lo tanto: sus formas idealmente ven como una Gaussiana (o en forma de campana) de la curva. Sin embargo, sus formas varían: pueden ir hacia arriba y hacia abajo (un poco o un mucho) a lo largo del tiempo. Vea la figura a continuación tres ejemplos.

three demo flows

Las variaciones en las formas son lo que me interesa. Estoy usando análisis de componentes principales (PCA) en MATLAB para este propósito, con el que espero encontrar un (pequeño) número de patrones básicos que explican estas variaciones en la curva de flujo de formas.

Tenga en cuenta la siguiente importantes pasos puedo tomar: me permito el eje de tiempo, por lo que todos los flujos tienen igual número de muestras y todos los flujos de comenzar en la $n=1,\,n\in N$ y final en $n=N$. Hago esto porque me preocupan sólo de forma, sin tiempo de influencia.

La matriz de datos $A$ I analizar con PCA ha $M$ filas (observaciones) y $N$ columnas (muestras).

PCA

Al realizar la PCA en los datos anteriores, tengo una bastante peculiar resultado. Creo que no es por casualidad. El de componentes principales (Pc) parecen ser los sinusoides, más o menos. El primer PC es una mitad de período (positiva) de los senos paranasales, que se asemeja a la forma básica que he descrito en el primer párrafo de esta pregunta. No es una sinusoidal perfecta, ya que contiene algunas variaciones. El segundo componente es un período completo de un seno: sube desde cero, volver a cero y se vuelve negativo para ir de vuelta a cero de nuevo. El tercer PC es uno-y-uno-mitad de período, etc. Consulte la siguiente figura para los primeros 6 Equipos (de $M=657$ de los flujos).

first 6 PCs

Siento que este tiene una conexión con la serie de Fourier, porque a mi de componentes principales, básicamente, parecen ser los componentes de la frecuencia de mis datos originales, o están relacionados con ellos. Es allí una manera intuitiva (y de una manera matemática, por supuesto), para entender por qué me sale este resultado en particular? Supongo que los sinusoides son en realidad el resultado de la relación entre el PCA y la serie de Fourier y la variación en los sinusoides es causada por las variaciones/ruido en mis datos.

10voto

SLY Puntos 1086

Este es un resultado típico si tiene datos que se caracterizan por una localizada y aproximadamente estacionaria de autocorrelación. He aquí una sencilla demostración en Matlab.

Generar mutuamente correlacionadas series de tiempo de ruido blanco:

M = 100;          % number of variables
N = 1000000;      % number of samples (time points)
x = randn(N, M);

Inducir la autocorrelación entre las variables (los"flujos") mediante el cálculo de una media móvil (que implementa el uso de una matriz de Toeplitz):

ma = toeplitz([ones(1, 5) zeros(1, M - 5)]);
x = x * ma;

Calcular el PCA y la trama de la primera directora modos:

[v, e] = eig(cov(x));
[e, ind] = sort(diag(e), 'descend');
v = v(:, ind);
plot(v(:, 1 : 3), '.-')
xlabel('variables')
legend({'PM1', 'PM2', 'PM3'})

El resultado se parece a esto:

La razón es que los datos con estacionaria de autocorrelación puede ser visto como siendo generados por una traducción lineal invariante en el operador (a menudo "invariante en el tiempo", pero aquí la correspondiente dimensión es "variable", no "el tiempo"), es decir, por un proceso de convolución, y los vectores propios de un operador son los armónicos de las funciones. Los vectores propios de la matriz de covarianza (los principales modos) son estimaciones de los vectores propios del operador porque el verdadero covarianza es idéntica a la del producto de que el operador de la matriz con el mismo. - Aquí la real para el operador está dado por la matriz de Toeplitz, que es sólo casi la traducción-invariante (porque de los límites), así que tenemos casi armónico de las funciones.

Por cierto., He utilizado el término "principal" modos de arriba, porque el término "componentes principales" generalmente se refiere a ese aspecto de la PCA, el cual es una función de la dimensión a través de la cual la matriz de covarianza ha sido calculada; aquí, el tiempo. Los componentes principales se obtienen mediante la transformación de los datos en la base se extendió por las principales modos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X