Me he dado cuenta de que cuando se aplica el ACP a grandes conjuntos de datos, la gente suele hacer primero un subconjunto de datos considerable. A veces la gente simplemente toma un subconjunto de características/variables al azar, pero a menudo tienen una razón, en gran parte relacionada con la eliminación de variables que consideran que pueden ser ruido. Un ejemplo prototípico es el análisis de datos que realiza el Drop-Seq secuenciación unicelular de las células de la retina, los autores subconjuntan su matriz de datos de expresión de 25.000 genes a los 384 genes más altamente variables y luego proceden a utilizar varias técnicas de reducción de la dimensionalidad no supervisadas como PCA y t-SNE.
También he visto este tipo de preprocesamiento en otros lugares. Sin embargo, no entiendo por qué es necesario este tipo de subconjunto (preselección de características). El PCA reducirá la dimensionalidad de tal manera que la varianza se maximizará - por lo tanto, los genes que no están variando serán en gran parte ignorados. ¿Por qué sub-configurar tan dramáticamente los datos cuando los genes que no varían no deberían tener mucho efecto en el resultado del PCA?
No se trata de una pregunta específica sobre este documento, sino que parece ser una aproximación estándar a los grandes conjuntos de datos, así que supongo que hay algo que se me escapa.