Pregunta Fundamental
Al hacer PCA (o cualquier reducción de dimensionalidad), lo que es "el número de dimensiones"? Siempre he pensado que la cosa de medir (es decir, la variable) es el número de dimensiones: por ejemplo, si se mide la longitud, la anchura, la altura de una caja, que es de 3 dimensiones (3 variables); si se mide la abundancia de 10.000 genes en 200 células, que es 10.000 dimensiones (no 200 dimensiones).
Más específicamente
En lo que respecta a la imagen 1 (a continuación), lo que es la "correcta" interpretación de número de dimensiones (antes PCA); es el número de células (200), o el número de genes (10,000)?
Nota: creo que es posible usar el número de células o el número de genes como el número de dimensiones, obviamente con diferentes interpretaciones. Además, hay algunas otras buenas discusiones de la PCA en la Cruz Validado; sin embargo, mi pregunta es un poco diferente: estoy realmente esperando por una respuesta con respecto a mi confusión después de ver este vídeo en el PCA. He aquí una breve explicación de mi confusión.
El narrador está tratando de explicar de la PCA en el contexto de este experimento (Imagen 1, a continuación):
Este gráfico elaborado a partir de una sola célula de RNA-seq. Había alrededor de 10.000 transcritos de los genes en cada célula.
Cada punto representa una sola célula y su perfil de la transcripción. La idea general es que las células con similar transcripción debe clúster.
Como yo pensaba que entendía de la PCA, en este experimento, los genes son las "dimensiones" y las células son las observaciones; es decir, si hay 10.000 genes, hay 10.000 dimensiones. Esta comprensión parece coincidir con un ejemplo diferente (ver referencias), utilizando el conjunto de datos Iris (Imagen 2, a continuación); como se puede ver, el número de dimensiones es el número de características de las flores que se midieron.
Sin embargo, en el video, el narrador pasa a describir el número de dimensiones como el número de células para que el experimento midió el gen de la abundancia (ver Imágenes 3 y 4, más abajo):
P: En relación con el experimento en la Imagen 1, en el que "cada punto representa una sola célula", fue el número de dimensiones (antes PCA) el número de células o el número de genes?
Referencias:
Enlace al video: https://www.youtube.com/watch?v=_UVHneBUBW0
Para el enlace a la referencia en el Iris de datos, google "Análisis de Componentes Principales en 3 Sencillos Pasos Sebastián Raschka" (no tengo suficiente reputación en este sitio para incluir más enlaces en esta pregunta).