8 votos

Puede alguien explicar el C-Index en el contexto de la agrupación jerárquica?

Este es un seguimiento a esta pregunta. Actualmente estoy tratando de implementar el C-Índice con el fin de encontrar una cerca-número óptimo de clusters a partir de una jerarquía de grupos. Puedo hacer esto mediante el cálculo de la C-Índice para cada paso de la (agglomerative) la agrupación jerárquica. El problema es que el C-Index es mínima (0 para ser exactos) para el muy degenerado conglomerados. Considere esto:

$c = \frac{S-S_{min}}{S_{max}-S_{min}}$

En este caso, $S$ es la suma de todas las distancias entre pares de observaciones en el mismo clúster a través de todos los grupos. Deje $n$ el número de estos pares. $S_{min}$ $S_{max}$ son las sumas de $n$ más bajo/más alto de las distancias entre todos los pares de observaciones. En el primer paso de la agrupación jerárquica, los dos más cercanos observaciones (distancia mínima) se fusionan en un clúster. Deje $d$ ser la distancia entre estas observaciones. Ahora hay un par de observaciones en el mismo clúster, por lo $n=1$ (todos los otros grupos son los únicos). En consecuencia,$S=d$. El problema es que $S_{min}$ también es igual a $d$, debido a $d$ es la menor distancia (que es por qué las observaciones donde se fusionaron en primer lugar). Así que para este caso, el C-Índice es siempre 0. Se mantiene a 0 mientras sólo singleton clusters se fusionan. Esto significa que el óptimo de la agrupación de acuerdo con el C-Índice de siempre consisten en un montón de grupos que contienen dos observaciones, y el resto de singleton. ¿Significa esto que el C-Index no es aplicable a la agrupación jerárquica? Estoy haciendo algo mal? He buscado mucho, pero no pudo encontrar ninguna explicación adecuada. Alguien puede darme el nombre de algún recurso que está disponible libremente en internet? O, si no, al menos, un libro que puede tratar de conseguir que en mi universidades de la biblioteca?

Gracias de antemano!

2voto

Omar Kooheji Puntos 384

Este puede ser uno de los casos donde hay más de arte que de la ciencia a la agrupación. Me permito sugerir que usted deje que su algoritmo de clústeres de ejecutar por un corto tiempo antes de dejar que el C-los cálculos del Índice de tiro. "Poco tiempo" puede ser después de la transformación de una de las parejas, cuando apenas comienza a exceder de 0, o algún otro método heurístico. (Después de todo no hay que esperar a parar en 1 o 2 grupos, de lo contrario, una separación diferentes algoritmo puede haber sido implementado).

Para un libro de la recomendación, puedo sugerir:

Usted puede escanear/búsqueda de los contenidos disponibles en la búsqueda de libros de google para ver si pueden satisfacer sus necesidades. Ha funcionado como una referencia para mí en el pasado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X