21 votos

Cómo interpretar PCA en datos de series de tiempo?

Estoy tratando de entender el uso de la PCA en un reciente artículo periodístico titulado "el Mapeo de la actividad cerebral en la escala con el clúster de computación" Freeman et al., 2014 (pdf gratuito disponible en el laboratorio de sitio web). Que el uso de la PCA en datos de series de tiempo, y el uso de la PCA de pesos para crear un mapa del cerebro.

Los datos de prueba-el promedio de los datos de imágenes almacenados en forma de una matriz (llamada $\hat {\mathbf Y}$ en el papel) con $n$ voxels (o imágenes de lugares en el cerebro) $\times \hat t$ puntos de tiempo (la duración de un único estímulo para el cerebro).

Que el uso de la SVD, resultando en $$\hat {\mathbf Y} = \mathbf{USV}^\top$$ ($\mathbf V^\cima$ indicating transpose of matrix $\mathbf V$).

Los autores afirman que

El de componentes principales (las columnas de a $\mathbf V$) son vectores de longitud $\hat t$, y los puntajes (las columnas de a $\mathbf U$) son vectores de longitud $n$ (número de voxels), que describe la proyección de cada voxel en la dirección dada por el componente correspondiente, formando proyecciones en el volumen, es decir, de todo el cerebro de los mapas.

Así que los PCs son vectores de longitud $\hat t$. ¿Cómo puedo interpretar que el "primer componente principal explica la mayoría de la varianza", como se expresa comúnmente en los tutoriales de la PCA? Empezamos con una matriz de muchos altamente correlacionados de series de tiempo -- ¿cómo un solo PC de la serie de tiempo de explicar la varianza en la matriz original? Entiendo que toda la "rotación de una Gaussiana de la nube de puntos a la más variada eje" cosa", pero no estoy seguro de cómo esto se relaciona con el tiempo de la serie. ¿Qué hacen los autores entienden por dirección cuando afirman: "las calificaciones (las columnas de a $\mathbf U$) son vectores de longitud $n$ (número de voxels), que describe la proyección de cada voxel en la dirección dada por el componente correspondiente"? ¿Cómo puede un componente principal en el curso del tiempo tiene una dirección?

Para ver un ejemplo de las horas resultantes de la serie de combinaciones lineales de principio de los componentes 1 y 2 y la del cerebro asociadas a la mapa, visite el siguiente enlace y mover el mouse sobre los puntos en los XY plot.

Freman et al.

Mi segunda pregunta es relativa a la (estado-espacio) trayectorias crean utilizando las puntuaciones de los componentes principales.

Estos son creados tomando el primero de 2 puntuaciones (en el caso de la "optomotor" ejemplo que he descrito anteriormente) y el proyecto de los ensayos individuales (usado para crear la prueba promedio de la matriz descrito anteriormente) en los principales subespacio por la ecuación: $$\mathbf J = \mathbf U^\top \mathbf Y.$$

Como puedes ver en los enlaces de las películas, cada traza en el espacio de estado que representa la actividad del cerebro como un todo.

Alguien puede proporcionar la intuición de lo que cada "fotograma" del espacio de estado película significa, en comparación con la figura que se asocia la XY plot de los resultados de los primeros 2 PCs. ¿Qué significa en un "marco" para el 1 de prueba de la experimentación en 1 posición en el XY del espacio de estado y otra prueba para estar en otra posición? Cómo hacer el XY plot posiciones en las películas se relacionan con el componente del principio huellas en los enlaces de la figura se mencionó en la primera parte de mi pregunta?

Freeman et al.

18voto

zowens Puntos 1417

P1: ¿Cuál es la conexión entre el PC de la serie de tiempo y de "máxima varianza"?

Los datos que se están analizando son $\hat t$ puntos de datos para cada una de las $n$ neuronas, de modo que uno puede pensar que como $\hat t$ puntos de datos en el $n$espacio tridimensional $\mathbb R^n$. Es una "nube de puntos", por lo que la realización de PCA cantidades para encontrar las direcciones de máxima varianza, como usted bien sabe. Yo prefiero llamar a estas direcciones (que son vectores propios de la matriz de covarianza) "ejes principales", y las proyecciones de los datos en estas instrucciones de "componentes principales".

Cuando el análisis de series de tiempo, la única adición a esta imagen es que los puntos son significativamente ordenada, numerada o (de$1$$\hat t$), en lugar de ser simplemente una desordenada colección de puntos. Lo que significa que si tomamos la tasa de disparo de una neurona (que es una coordenada en el $\mathbb R^n$), a continuación, sus valores se pueden representar como una función del tiempo. Del mismo modo, si tenemos un PC (que es una proyección de $\mathbb R^n$ en algunas de línea), entonces también se ha $\hat t$ valores y puede ser graficada como una función de tiempo. Así que si las características originales son de series de tiempo, a continuación, PCs son también de series de tiempo.

Estoy de acuerdo con @Nestor de la interpretación de la anterior: cada rasgo original puede ser visto como una combinación lineal de los PCs, y como PCs no están correlacionados entre sí, uno puede pensar en ellos como funciones de base que las características originales se descompone en. Es un poco como el análisis de Fourier, pero en lugar de tomar fijo de base de senos y cosenos, nos encontramos con el "más adecuado" para este conjunto de datos, en el sentido de que la primera PC de cuentas para la mayoría de la varianza, etc.

"Contabilidad para la mayoría de la varianza" aquí significa que si sólo tiene una función de base (series de tiempo) y tratar de aproximar todas sus características con ella, luego la primera a la PC va a hacer el mejor trabajo. Así que la intuición básica es que el primer PC es una función de base de series de tiempo que se adapte a todo el tiempo disponible de la serie el mejor, etc.


¿Por qué es este pasaje en Freeman et al. tan confuso?

Freeman et al. analizar la matriz de datos $\hat{\mathbf Y}$ con variables (es decir, las neuronas) en las filas (!), no en columnas. Nota que restar de la fila de medios, lo que tiene sentido, dado que las variables están centrados antes de la PCA. Luego de realizar SVD: $$\hat {\mathbf Y} = \mathbf{USV}^\top.$$ Using the terminology I advocate above, columns of $\mathbf U$ are principal axes (directions in $\mathbb R^n$) and columns of $\mathbf{SV}$ are principal components (time series of length $\hat t$).

La frase que usted cita de Freeman et al. es bastante confuso, de hecho:

El de componentes principales (las columnas de a $\mathbf V$) son vectores de longitud $\hat t$, y los puntajes (las columnas de a $\mathbf U$) son vectores de longitud $n$ (número de voxels), que describe la proyección de cada voxel en la dirección dada por el componente correspondiente, formando proyecciones en el volumen, es decir, de todo el cerebro de los mapas.

En primer lugar, las columnas de a $\mathbf V$ no son Pc, pero la Pc a escala de la unidad de la norma. Segundo, las columnas de a $\mathbf U$ NO son las puntuaciones, porque "puntuaciones" por lo general significa PCs. En tercer lugar, "la dirección dada por el componente correspondiente" es un críptico noción. Yo creo que voltear la imagen aquí y sugerir a pensar acerca de $n$ $\hat t$- dimensiones del espacio, de modo que ahora cada neurona es un punto de datos (y no una variable). Conceptualmente suena como un gran cambio, pero matemáticamente casi no hace diferencia, con el único cambio de que los ejes principales y [unidad de norma] de componentes principales el cambio de lugares. En este caso, mi Pc desde arriba ($\hat t$-tiempo largo de la serie) se convertirán en los ejes principales, es decir, las direcciones, y $\mathbf U$ puede ser pensado como normalizado proyecciones en estas direcciones (normalizada de los exámenes?).

Me parece que esta muy confuso, y por lo tanto, sugiero ignorar su elección de palabras, pero sólo se ven en las fórmulas. A partir de este punto voy a seguir usando los términos como me gustan, no se cómo Freeman et al. el uso de ellos.


P2: ¿Qué son el espacio de estado trayectorias?

Ellos toman un solo ensayo de proyecto y de los datos sobre los dos primeros ejes principales, es decir, las dos primeras columnas de a $\mathbf U$). Si usted lo hizo con los datos originales $\hat{\mathbf Y}$, obtendría dos primeros componentes principales de la espalda. De nuevo, la proyección sobre un eje principal es uno de los componentes principales, es decir, un $\hat t$-tiempo largo de la serie.

Si lo haces con un solo juicio de datos $\mathbf Y$, de nuevo llegar dos $\hat t$-tiempo largo de la serie. En la película, cada línea corresponde a dicha proyección: coordenada x evoluciona de acuerdo a la PC1 y la coordenada y de acuerdo a la PC2. Esto es lo que se llama "espacio de estado": la PC1 se trazan contra la PC2. El tiempo pasa como el punto se mueve a su alrededor.

Cada línea en la película se obtiene diferentes con un único ensayo $\mathbf Y$.

1voto

Silvercode Puntos 438

Con respecto a la primera pregunta. Considerar que el conjunto de series de tiempo a través de un particular voxel a ser un único sorteo de una distribución multivariante. Ahora podemos pensar en esto como una multivariante vector parece mucho a cualquier otro que podamos aplicar PCA. El primer $p$ columnas de $\bf V$ son entonces los eigen-curso temporal que, cuando se combinan linealmente de forma proporcionar la mejor aproximación a la evolución en el tiempo a través de un particular voxel para la duración de la $\hat t$ de un estímulo.

Por lo $\bf \hat Y$ $n \times \hat t$ de la matriz y, por tanto, $\bf U$ $n \times n$ mientras $\bf V$$\hat t \times \hat t$.

Con respecto a la segunda pregunta. La ecuación dada es

$\bf J = \bf U^T Y$

Estamos dado que el $\bf J$ es un 2 o 3 $ \times t$ matriz. (Esto implica un pequeño juego de manos en la caída de las filas/columnas). Dos o tres se eligió como la dimensionalidad como esta es lo que puede ser graficada en la figura 6 de la nota.

Sin embargo $t \ne \hat t$, por lo que espero que el separar las trazas de las líneas en la fig 6) han sido obtenidos por picar $\bf J$ en los diferentes segmentos correspondientes a las presentaciones del estímulo. Cada uno de estos bloques puede luego ser graficados en 2 o 3 dimensiones del espacio considerando cada columna como un punto en ese espacio y, a continuación, dibuje una línea entre los puntos definidos por columnas adyacentes dando las trayectorias.

Tras el video de arriba 8 aparece para cada bloque para agregar cada uno (columna)punto de forma secuencial, une el último punto, y hacer que esta longitud de $\hat t$ secuencia de vídeo.

No he tratado con la coloración de la metodología antes, y que iba a tomar un tiempo antes de que yo estaba seguro de comentar en ese aspecto. He encontrado el comentario en la similitud de la Fig 4c confuso ya que la coloración es obtenido por cada voxel de regresión. Mientras que en la Fig 6 de cada traza es toda una imagen de artefacto. A menos que me ponen directamente creo que es la dirección del estímulo durante ese segmento de tiempo como por el comentario en la Figura.

0voto

statHacker Puntos 38

También he encontrado este tutorial spot-on útil para la primera parte de la pregunta.

http://www.dsea.unipi.it/Members/balestrinow/CP/file/TD_16_6_davies_pca.pdf

La 2ª parte está muy bien explicado por @conjeturas .

Gracias por su ayuda. Gran primera experiencia con estadísticas.stackexchange :) !!!!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X