1 votos

¿Qué significa aplicar el algoritmo k-means a una matriz de distancia transformada?

Estoy leyendo una publicación muy buena (reciente) sobre clustering: Kiselev et al., 2017, SC3 - agrupación consensuada de datos de RNA-Seq de una sola célula. (si no tiene acceso, consulte autor PDF ).

El marco del algoritmo funciona como sigue:

  1. Calcular la matriz de distancias (Euclidiana, Pearson, Spearman) sobre la matriz de muestras x características.

  2. Aplicar la transformación de características (PCA, Laplaciano) en la matriz de distancia (muestras x muestras).

  3. Aplicar los algoritmos K-means en la matriz de distancia transformada en el paso 2.

  4. ....

Me parece que lo hicieron en el orden "equivocado". En mi mente, haré primero la transformación de características, seguida del cálculo de la matriz de distancia y luego haré la agrupación. Pero creo que tienen una justificación, pero no he podido encontrarla en su documento. ¿Podría alguien explicar por qué funciona?

enter image description here

2voto

Amadiere Puntos 5606

K-means no debería aplicarse a una matriz de distancia en absoluto.

Está pensado para calcular las medias en el original datos.

Existe el kernel k-means, pero funciona de forma diferente, y requiere un kernel adecuado para funcionar.

Si se aplica k-means a la matriz de distancias, se agrupan las distancias, no los datos. Esto provoca una doble ponderación impar del número de puntos: si tiene n copias del mismo punto, también obtiene n colums en la matriz de distancia, por lo que su efecto también aumenta allí. Así que esto potencia los efectos de las agrupaciones densas de una manera muy poco intuitiva. Los resultados serán a menudo razonables (por lo que no se nota fácilmente), pero la semántica de estos resultados es muy poco intuitiva, y no satisface ningún criterio de calidad útil. También es mucho más lento: al menos O(n²).

Añadir un PCA u otro paso de reducción de dimensión entre medias no hace que los resultados sean más válidos, sino todo lo contrario. El PCA repondrá los factores, por lo que al final no se sabe qué es lo que minimiza la agrupación. No, no creo que este sea un buen artículo: La metodología de análisis está completamente rota.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X