Estoy leyendo una publicación muy buena (reciente) sobre clustering: Kiselev et al., 2017, SC3 - agrupación consensuada de datos de RNA-Seq de una sola célula. (si no tiene acceso, consulte autor PDF ).
El marco del algoritmo funciona como sigue:
-
Calcular la matriz de distancias (Euclidiana, Pearson, Spearman) sobre la matriz de muestras x características.
-
Aplicar la transformación de características (PCA, Laplaciano) en la matriz de distancia (muestras x muestras).
-
Aplicar los algoritmos K-means en la matriz de distancia transformada en el paso 2.
-
....
Me parece que lo hicieron en el orden "equivocado". En mi mente, haré primero la transformación de características, seguida del cálculo de la matriz de distancia y luego haré la agrupación. Pero creo que tienen una justificación, pero no he podido encontrarla en su documento. ¿Podría alguien explicar por qué funciona?