Tengo como una entrada de un número de puntos que necesito para la partición en grupos. Cada punto tiene un número de características que son ideales para ser usados para determinar la similitud entre cada punto y el de los demás. Algunas de estas características son valores escalares (un número) y otros vectores.
Por ejemplo, suponga que cada punto tiene las siguientes características:
S1: valor escalar
V1: 48 $\times$ 1 vector
V2: 48 $\times$ 1 vector
Por ejemplo, un punto puede tener (S1,V1, V2) como (100, {0, 100, 20, 30}, {75,0,10, 5})
Mi hipótesis es que el uso de similitud del coseno para encontrar la similitud de los vectores V1 o V2 de un punto es el vector V1 o V2 de otro punto. Ya he calculadas las matrices de similitud entre todos los puntos en términos de V1 y V2 similitudes.
Mediante la exploración de la norma algoritmos de clustering en R, he encontrado que k-means vuelve a utilizar la distancia Euclídea, que puede ser adecuado para la agrupación de los puntos de acuerdo a sus valores escalares, porque [asunto poco claro] no funciona para la situación donde he tipos de híbridos de características (escalares y vectores). También el K-medoid la agrupación parece estar apoyando sólo la distancia Euclídea y el Manhattan distancias.
Creo que lo que se debe hacer es generar una mayor distancia/matriz de similitud entre todos los puntos basados en el valor escalar, así que terminamos con tres matrices de similitud que muestran la similitud entre cada punto y el resto de los puntos de acuerdo a cada característica independientemente de que sea un escalar o un vector, y el uso de esas matrices para encontrar el barrio de puntos, mientras que la agrupación.
Me pregunto si existe una implementación de un algoritmo de clustering que acepta como entrada las matrices de similitud (o, alternativamente, la falta de similitud/distancia matrices) entre el vector de características de varios puntos y los utiliza para la agrupación?