29 votos

Realice agrupaciones K-means (o similares) sólo con una matriz de distancias, no con datos de puntos por características.

Quiero realizar un clustering K-means sobre objetos que tengo, pero los objetos no están descritos como puntos en el espacio, es decir, por objects x features conjunto de datos. Sin embargo, soy capaz de calcular la distancia entre dos objetos cualesquiera (se basa en una función de similitud). Así pues, dispongo de la matriz de distancias objects x objects .

He implementado K-means antes, pero eso fue con entrada de conjunto de datos de puntos; y con entrada de matriz de distancia no me queda claro cómo actualizar los clusters para que sean los "centros" de los clusters sin una representación de puntos. ¿Cómo se haría esto normalmente? ¿Existen versiones de K-means o métodos parecidos para ello?

2voto

dan gibson Puntos 1580

Los datos también se pueden ver como una red, y se puede utilizar uno de los muchos algoritmos de agrupación de redes disponibles. Para ello, probablemente tendrá que aplicar un umbral a los pesos de los bordes y transformar las distancias en similitudes. No es la forma "estadística" de hacer las cosas, pero el análisis de conglomerados es un problema subespecificado para empezar, y como herramientas de exploración los algoritmos de conglomerados de redes funcionan muy bien.

2voto

No sé por qué es tan poco común en la literatura, sin embargo la solución sugerida por @gung y @ttnphns (primero proyectar sus distancias por pares en un espacio euclidiano utilizando Análisis de Coordenadas Principales, por ejemplo a través de este si usas R, y luego hacer K-means de forma habitual) es sencillo y no requiere algoritmos especializados. Yo personalmente lo he utilizado aquí integrado en un marco de optimización y funcionó bastante bien.

1voto

P.T. Puntos 268

Con respecto a la agrupación y el SMD, le sugiero los siguientes recursos:

Estas referencias también cubren muy bien los temas de las funciones de similitud y distancia (medidas de proximidad) para datos binarios y continuos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X