5 votos

¿Cuál puede ser la razón para hacer una selección de características basada en la varianza antes de hacer el ACP?

Me he dado cuenta de que cuando se aplica el ACP a grandes conjuntos de datos, la gente suele hacer primero un subconjunto de datos considerable. A veces la gente simplemente toma un subconjunto de características/variables al azar, pero a menudo tienen una razón, en gran parte relacionada con la eliminación de variables que consideran que pueden ser ruido. Un ejemplo prototípico es el análisis de datos que realiza el Drop-Seq secuenciación unicelular de las células de la retina, los autores subconjuntan su matriz de datos de expresión de 25.000 genes a los 384 genes más altamente variables y luego proceden a utilizar varias técnicas de reducción de la dimensionalidad no supervisadas como PCA y t-SNE.

También he visto este tipo de preprocesamiento en otros lugares. Sin embargo, no entiendo por qué es necesario este tipo de subconjunto (preselección de características). El PCA reducirá la dimensionalidad de tal manera que la varianza se maximizará - por lo tanto, los genes que no están variando serán en gran parte ignorados. ¿Por qué sub-configurar tan dramáticamente los datos cuando los genes que no varían no deberían tener mucho efecto en el resultado del PCA?

No se trata de una pregunta específica sobre este documento, sino que parece ser una aproximación estándar a los grandes conjuntos de datos, así que supongo que hay algo que se me escapa.

5voto

zowens Puntos 1417

El papel en sí es disponible abiertamente en línea pero sus materiales complementarios no lo son, por lo que copio aquí las partes pertinentes. Así es como los autores ejecutaron el PCA:

Realizamos un Análisis de Componentes Principales (ACP) en nuestro conjunto de entrenamiento como se ha descrito anteriormente (Shalek et al, 2013), utilizando la función prcomp en R, después de escalar y centrar los datos a lo largo de cada gen. Utilizamos Sólo utilizamos los genes "altamente variables" previamente identificados como entrada al PCA para asegurar una identificación identificación robusta de las estructuras primarias en los datos.

Y así es como seleccionaron los genes "altamente variables":

Primero identificamos el conjunto de genes que era más variable en nuestro conjunto de entrenamiento, después de controlar por la relación entre la expresión media y la variabilidad. Calculamos la media y una medida de dispersión de dispersión (varianza/media) para cada gen en las 13.155 células individuales, y colocamos los genes en 20 en función de su expresión media. Dentro de cada intervalo, se normalizó la medida de dispersión de todos los de la dispersión de todos los genes dentro de la franja, para identificar los genes atípicos cuyos valores de expresión eran muy variables incluso cuando se comparan con genes con una expresión media similar. Se utilizó un corte de puntuación z de 1,7 para identificar 384 genes muy variables.


Fíjate en dos cosas:

  1. Seleccionan los genes "altamente variables" en función de sus varianzas (en relación con la media, pero esto no es importante aquí). Los genes con varianzas inusualmente grandes serán seleccionados.

  2. Realizan el ACP después del escalado, es decir $z$ -puntuación, los datos de cada gen. En otras palabras, el PCA se realiza sobre la matriz de correlación, no sobre la matriz de covarianza. Los genes escalados que entran en el PCA tienen todos la misma varianza igual a $1$ .

Esto explica por qué la preselección no es superflua en este caso: el ACP se realiza sobre correlaciones, es decir, sin utilizar en absoluto la información de la varianza; las varianzas sólo se utilizan para la preselección.

Ciertamente, se puede imaginar una situación en la que el PCA sobre las correlaciones entre todos los genes y el PCA sobre las correlaciones entre los genes "altamente variables" arrojen resultados muy diferentes. Por ejemplo, en principio puede ocurrir que los genes menos variables sean más alto correlacionados (y dominarán en el PCA) que los genes altamente variables.

No tengo experiencia con estos datos, por lo que no puedo opinar sobre la utilidad de este procedimiento en este ámbito de aplicación concreto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X