5 votos

Agrupamiento de puntos basados en similitudes de función vectorial en R

Tengo como una entrada de un número de puntos que necesito para la partición en grupos. Cada punto tiene un número de características que son ideales para ser usados para determinar la similitud entre cada punto y el de los demás. Algunas de estas características son valores escalares (un número) y otros vectores.

Por ejemplo, suponga que cada punto tiene las siguientes características:

  1. S1: valor escalar

  2. V1: 48 $\times$ 1 vector

  3. V2: 48 $\times$ 1 vector

Por ejemplo, un punto puede tener (S1,V1, V2) como (100, {0, 100, 20, 30}, {75,0,10, 5})

Mi hipótesis es que el uso de similitud del coseno para encontrar la similitud de los vectores V1 o V2 de un punto es el vector V1 o V2 de otro punto. Ya he calculadas las matrices de similitud entre todos los puntos en términos de V1 y V2 similitudes.

Mediante la exploración de la norma algoritmos de clustering en R, he encontrado que k-means vuelve a utilizar la distancia Euclídea, que puede ser adecuado para la agrupación de los puntos de acuerdo a sus valores escalares, porque [asunto poco claro] no funciona para la situación donde he tipos de híbridos de características (escalares y vectores). También el K-medoid la agrupación parece estar apoyando sólo la distancia Euclídea y el Manhattan distancias.

Creo que lo que se debe hacer es generar una mayor distancia/matriz de similitud entre todos los puntos basados en el valor escalar, así que terminamos con tres matrices de similitud que muestran la similitud entre cada punto y el resto de los puntos de acuerdo a cada característica independientemente de que sea un escalar o un vector, y el uso de esas matrices para encontrar el barrio de puntos, mientras que la agrupación.

Me pregunto si existe una implementación de un algoritmo de clustering que acepta como entrada las matrices de similitud (o, alternativamente, la falta de similitud/distancia matrices) entre el vector de características de varios puntos y los utiliza para la agrupación?

1voto

Amadiere Puntos 5606

En realidad, K-medoids (aka: PAM) puede trabajar con cualquier tipo de métricas de distancia o similitud. Y DBSCAN, óptica y clustering jerárquico. Este último sin embargo es generalmente implementado en $O(n^3)$, así que no es una opción si usted tiene un montón de casos.

1voto

user23918 Puntos 111

Si simplemente desea agrupar sus datos en base a una métrica de similitud de su elección puede echar un vistazo a Propagación de afinidad clustering. Toma cualquier matriz de similitud como entrada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X