6 votos

Que hierarchical clustering algoritmo?

Tengo una gran distancia de la matriz $3400\times 3400$.

Necesito clúster jerárquicamente y, a continuación, cortar el árbol en grupos (como un partitional enfoque).

El algoritmo que es más sensible a la búsqueda natural de clusters en los datos en base a la matriz de distancias?

¿Cómo puedo evaluar el resultado? Estoy planeando sobre el uso de la media de la silueta coeficiente del árbol, en los distintos niveles de identificar el "natural" clusters del árbol.

Gracias

1voto

ebryn Puntos 4037

Algunas cosas interesantes que usted puede probar:

  1. Echa un vistazo a SigClust - es una función de R que permite establecer la importancia de la agrupación en clústeres mediante bootstrapping/simulación de monte carlo. SigClust proporcionará un p-valor para la agrupación operación entre dos conjuntos de puntos. Teóricamente, se puede ejecutar en cada nodo de la agrupación jerárquica de árbol, pero tiende a ser mucho tiempo, así que tal vez en los nodos de más de 10 puntos. En cualquier caso, si usted SigClust proporcionar de forma coherente altos valores de p para una agrupación de puntos, entonces los que podría resaltar la natural clusters que usted está buscando.

  2. Pruebe a ver si puede utilizar OREO o la re-ordenar en lugar de agrupamiento jerárquico. No hay un R aplicación disponible hasta donde yo sé, pero el algoritmo no generar resultados muy impresionantes (al menos en los papeles que he leído). Si usted tiene un trasfondo programación matemática estoy seguro de que podría conseguir algo como esto trabaja utilizando CPLEX.

1voto

bentsai Puntos 1886

Suena como que usted necesita HAC (jerárquica agglomerative clustering). Hay muchas variantes, pero la idea básica es que usted comienza con singleton clusters y progresivamente de mezcla, basado en diferentes formas de determinar que los clusters son los "más cercanos".

Para más información sobre HAC, consulte la entrada de la wikipedia.

0voto

knweiss Puntos 2810

Es posible que desee probar "agrupamiento basado en el modelo". Este algoritmo utiliza "BIC" para determinar el número de clusters.

Sinceramente

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X