5 votos

Cuando haces PCA (o una reducción de la dimensionalidad), ¿qué es "el número de dimensiones"?

Pregunta Fundamental

Al hacer PCA (o cualquier reducción de dimensionalidad), lo que es "el número de dimensiones"? Siempre he pensado que la cosa de medir (es decir, la variable) es el número de dimensiones: por ejemplo, si se mide la longitud, la anchura, la altura de una caja, que es de 3 dimensiones (3 variables); si se mide la abundancia de 10.000 genes en 200 células, que es 10.000 dimensiones (no 200 dimensiones).

Más específicamente

En lo que respecta a la imagen 1 (a continuación), lo que es la "correcta" interpretación de número de dimensiones (antes PCA); es el número de células (200), o el número de genes (10,000)?

Nota: creo que es posible usar el número de células o el número de genes como el número de dimensiones, obviamente con diferentes interpretaciones. Además, hay algunas otras buenas discusiones de la PCA en la Cruz Validado; sin embargo, mi pregunta es un poco diferente: estoy realmente esperando por una respuesta con respecto a mi confusión después de ver este vídeo en el PCA. He aquí una breve explicación de mi confusión.

El narrador está tratando de explicar de la PCA en el contexto de este experimento (Imagen 1, a continuación):

Este gráfico elaborado a partir de una sola célula de RNA-seq. Había alrededor de 10.000 transcritos de los genes en cada célula.

Cada punto representa una sola célula y su perfil de la transcripción. La idea general es que las células con similar transcripción debe clúster.

Como yo pensaba que entendía de la PCA, en este experimento, los genes son las "dimensiones" y las células son las observaciones; es decir, si hay 10.000 genes, hay 10.000 dimensiones. Esta comprensión parece coincidir con un ejemplo diferente (ver referencias), utilizando el conjunto de datos Iris (Imagen 2, a continuación); como se puede ver, el número de dimensiones es el número de características de las flores que se midieron.

Sin embargo, en el video, el narrador pasa a describir el número de dimensiones como el número de células para que el experimento midió el gen de la abundancia (ver Imágenes 3 y 4, más abajo):

P: En relación con el experimento en la Imagen 1, en el que "cada punto representa una sola célula", fue el número de dimensiones (antes PCA) el número de células o el número de genes?

enter image description here

Referencias:

Enlace al video: https://www.youtube.com/watch?v=_UVHneBUBW0

Para el enlace a la referencia en el Iris de datos, google "Análisis de Componentes Principales en 3 Sencillos Pasos Sebastián Raschka" (no tengo suficiente reputación en este sitio para incluir más enlaces en esta pregunta).

3voto

cbeleites Puntos 12461

(No puedo ver el video ahora mismo por lo que esta respuesta es en cierta medida una conjetura de lo que se quiere decir)

En primer lugar, sí hablamos principalmente sobre variables que abarcan las dimensiones. Sin embargo, también es posible tomar el punto de vista opuesto (esto a veces se llama R-modo versus Q-análisis de modo).

Permítanme tomar un desvío a un análisis de cluster para ilustrar esto: El análisis de Cluster con variables = genes = dimensiones se busca grupos de casos que tienen similares patrones de expresión génica. Por otro lado, también se puede tomar un "transpuesta" ver y pedir a los grupos de genes que se expresan de forma similar para las mismas células. Los Genes y las células han cambiado su papel en comparación con el primer enfoque. Para algunos tipos de datos, puede obtener agrupaciones similares en ambos sentidos (ver, por ejemplo, nuestro papel en el uso de este para datos espectroscópicos: A. Bonifacio, C. Beleites y V. Sergo: Aplicación de R-modo de análisis Raman mapas: una forma diferente de ver la vibración de datos hiperespectrales, AnalBioanalChem, 407, 4 (2015) 1089-1095. DOI 10.1007/s00216-014-8321-7), mientras que para otros tipos de datos de las dos formas de ver los datos son interesantes en sí mismos (por ejemplo, para los datos genéticos). En el último caso, se puede utilizar un mapa de calor, dando en ambos sentidos de la agrupación.

Ahora para el PCA, el hecho de la diversión es que hasta algunas decisiones de normalización (fila frente columnas para el centrado y posiblemente de escala) se llega a la misma solución en ambos sentidos - sólo las puntuaciones y cargas que va a cambiar su papel. (ver, por ejemplo, https://stats.stackexchange.com/a/147983/4598 y por Qué PCA de datos por medio de la SVD de los datos? para más detalles)

Es el número de dimensión el número de células o el número de genes?

En mi humilde opinión este es el lugar ambiguious y como se explicó anteriormente depende de la vista de los datos (es decir, la cuestión de preguntar/la aplicación a mano).

Para PCA, hay un adicional de ambigüedad que "dimensiones" a veces también se utiliza de referencia para el rango de la matriz de datos. El rango no puede ser más que el más pequeño de número de filas y número de columnas y también es el número máximo de componentes principales para que los datos de la matriz y por lo tanto el número de dimensiones de la resultante de girar el sistema de coordenadas (antes de la reducción de dimensiones mediante el truncamiento de este sistema de coordenadas).

En el ejemplo de 200 células y 10 ⁴ genes de la PC en la mayoría de las span 200 dimensiones, independientemente de si las células o genes fueron consideradas las variables por el modo de análisis de datos.

2voto

T.R. Puntos 1293

Una amplia discusión ya está aquí proporcionada en la respuesta por cbeleites, y bajo las mismas preguntas (PCA y el análisis de Correspondencias en su relación con el diagrama de dispersión biespacial), así que sólo voy a comentar brevemente en el vídeo específico.

Como el narrador nunca menciona "scores" o "cargas" de forma explícita a lo largo del vídeo, y el término "dimensiones" en el PCA ya es ambigua, técnicamente no hubo errores. Sin embargo, estoy de acuerdo con usted en que su presentación es confusa: la primera parte de los estados que la dimensionalidad a lo largo de las células se reduce (200 células -> 2 Uds.), y la segunda parte en realidad se centra en la reducción de la dimensionalidad lo largo de los genes (10.000 genes -> 2 PCs). Yo diría que hay muchos mejores y aún se puede acceder a las introducciones de los PCA, con presentación coherente y real de la terminología de E. g.: http://webspace.ship.edu/pgmarr/Geo441/Lectures/Lec%2017%20-%20Principal%20Component%20Analysis.pdf .

1voto

Martin Robins Puntos 1893

La definición de un espacio vectorial es bastante general, y hay muchas formas de representar los datos como vectores en un espacio vectorial.

Desde mi examen superficial, que puede ser la siguiente?

  • Deje $i = 1, \ldots, m$ índice de la gen.
  • Deje $j = 1, \ldots, n$ índice de la celda.
  • Deje $x_{i,j}$ denotar el nivel de expresión génica de los genes $i$ en la celda $j$.

Entonces tenemos una matriz de datos a $X$. Puede ejecutar PCA en $X$ o de la transposición $X^T$.

El tratamiento de las columnas de X como vectores (lo que usted está pensando naturalmente)

Estás pensando que podemos construir un vector para cada celda $j$ como:

$$ \mathbf{y}_j = \begin{bmatrix} x_{1,j} \\ x_{2,j} \\ \ldots \\ x_{m,j} \end{bmatrix}$$

Es decir, cada vector $\mathbf{y}_j$ se muestra en los niveles de expresión génica de las células de $j$ (y cada índice es un gen diferente).

El tratamiento de las filas de X como vectores (lo que parecen estar haciendo en la Imagen 3 y 4?)

Podríamos también en forma de vectores utilizando las columnas de a $X$

$$ \mathbf{z}_i = \begin{bmatrix} x_{i, 1} \\ x_{i, 2} \\ \dots \\ x_{i, n} \end{bmatrix} $$ Es decir, cada vector $\mathbf{z}_i$ se muestra en los niveles de expresión génica de los genes $i$ (y cada célula es un índice diferente del vector).

En adelante PCA

Una vez que usted tiene un montón de vectores, siempre puedes conducta de la PCA a encontrar una alternativa de base para el espacio.

Un área temática específica de la interpretación de que la base de curso dependerá de lo que sus diversos vectores que representan.

0 votos

Me gusta tu respuesta, pero creo que tu descripción de las filas y columnas es diferente a lo que yo pensaba. Estoy usando la imagen de datos de Iris como mi modelo conceptual. Usando ese modelo, usaría las celdas como "instancias" y las haría las etiquetas de las filas; usaría los genes como las "características" y las haría las etiquetas de las columnas. Así, el vector de cada célula es un vector de fila que muestra la expresión de cada gen, y el vector de cada gen es un vector de columna que muestra la expresión en cada célula.

0 votos

@John Sí, mi punto es simplemente que desde el punto de vista de las matemáticas puras, puedes hacer fácilmente que los genes sean "instancias" y las células "características". (No sé si eso tiene algún sentido o no o cuál sería la interpretación. No soy una persona de biología/genética).

0 votos

Creo que entiendo conceptualmente lo que quieres decir, que puedes tratar cualquiera de los dos ejes como las "instancias" o las "características". Estoy tratando de hacer esto más concreto, para estar seguro de que estoy entendiendo. Así que, de nuevo, utilizando los datos de Iris, se miden las características de las diferentes flores. Las flores son las instancias u objetos, mientras que las características de los pétalos son los rasgos. Del mismo modo, con el ejemplo de RNA seq, las células serían instancias u objetos, y los genes serían las características que se están midiendo. Creo que lo he entendido, ¡gracias!

0voto

Aksakal Puntos 11351

No me gustan estos videos. Ellos sólo hacen que la comprensión de la PCA más difícil trayendo en detalles irrelevantes. También, que son a largo y prolijo.

La idea de la PCA es muy sencillo cuando se trata de aplicaciones. Usted tiene varias series de datos, los llaman variables. Digamos que tiene N variables (serie) $x_1(t),x_2(t),\dots,x_N(t)$.

A veces hay algunos factores subyacentes que impulsan todas estas series. Digamos que hay M factores de $f_1(t),f_2(t),\dots,f_M(t)$, y la sospecha (o saber con certeza) que la unidad de las variables: $$x_1(t)=c_{11}f_1(t)+\dots+c_{1M}f_M(t)\\\dots\\ x_N(t)=c_{N1}f_1(t)+\dots+c_{NM}f_M(t)$$

Así que usted está interesado para extraer los valores del factor de $f_j(t)$ y los coeficientes de $c_{ij}$. Así, la PCA es una forma de lograr esto. De hecho, si usted no sabe cuál es el número exacto de los componentes de la M, que puede ayudarle a averiguar demasiado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X