Puede alguien explicar el C-Index en el contexto de la agrupación jerárquica?

Question

Puede alguien explicar el C-Index en el contexto de la agrupación jerárquica?

Preguntado el 13 de Septiembre, 2010: Cuando se hizo la pregunta
893 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Este es un seguimiento a esta pregunta. Actualmente estoy tratando de implementar el C-Índice con el fin de encontrar una cerca-número óptimo de clusters a partir de una jerarquía de grupos. Puedo hacer esto mediante el cálculo de la C-Índice para cada paso de la (agglomerative) la agrupación jerárquica. El problema es que el C-Index es mínima (0 para ser exactos) para el muy degenerado conglomerados. Considere esto:

$c = \frac{S-S_{min}}{S_{max}-S_{min}}$

En este caso, $S$ es la suma de todas las distancias entre pares de observaciones en el mismo clúster a través de todos los grupos. Deje $n$ el número de estos pares. $S_{min}$ $S_{max}$ son las sumas de $n$ más bajo/más alto de las distancias entre todos los pares de observaciones. En el primer paso de la agrupación jerárquica, los dos más cercanos observaciones (distancia mínima) se fusionan en un clúster. Deje $d$ ser la distancia entre estas observaciones. Ahora hay un par de observaciones en el mismo clúster, por lo $n=1$ (todos los otros grupos son los únicos). En consecuencia,$S=d$. El problema es que $S_{min}$ también es igual a $d$, debido a $d$ es la menor distancia (que es por qué las observaciones donde se fusionaron en primer lugar). Así que para este caso, el C-Índice es siempre 0. Se mantiene a 0 mientras sólo singleton clusters se fusionan. Esto significa que el óptimo de la agrupación de acuerdo con el C-Índice de siempre consisten en un montón de grupos que contienen dos observaciones, y el resto de singleton. ¿Significa esto que el C-Index no es aplicable a la agrupación jerárquica? Estoy haciendo algo mal? He buscado mucho, pero no pudo encontrar ninguna explicación adecuada. Alguien puede darme el nombre de algún recurso que está disponible libremente en internet? O, si no, al menos, un libro que puede tratar de conseguir que en mi universidades de la biblioteca?

Gracias de antemano!

Preguntado el 13 de Septiembre, 2010 por Bell

Answer 1

1 Respuestas

Answer 2

2voto

Omar Kooheji Puntos 384

Este puede ser uno de los casos donde hay más de arte que de la ciencia a la agrupación. Me permito sugerir que usted deje que su algoritmo de clústeres de ejecutar por un corto tiempo antes de dejar que el C-los cálculos del Índice de tiro. "Poco tiempo" puede ser después de la transformación de una de las parejas, cuando apenas comienza a exceder de 0, o algún otro método heurístico. (Después de todo no hay que esperar a parar en 1 o 2 grupos, de lo contrario, una separación diferentes algoritmo puede haber sido implementado).

Para un libro de la recomendación, puedo sugerir:

El Análisis de Cluster por Brian Everitt, Sabine Landau, Morven Leese

Usted puede escanear/búsqueda de los contenidos disponibles en la búsqueda de libros de google para ver si pueden satisfacer sus necesidades. Ha funcionado como una referencia para mí en el pasado.

Respondido el 13 de Septiembre, 2010 por Omar Kooheji (384 Puntos )

Puede alguien explicar el C-Index en el contexto de la agrupación jerárquica?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Puede alguien explicar el C-Index en el contexto de la agrupación jerárquica?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: