Este es un seguimiento a esta pregunta. Actualmente estoy tratando de implementar el C-Índice con el fin de encontrar una cerca-número óptimo de clusters a partir de una jerarquía de grupos. Puedo hacer esto mediante el cálculo de la C-Índice para cada paso de la (agglomerative) la agrupación jerárquica. El problema es que el C-Index es mínima (0 para ser exactos) para el muy degenerado conglomerados. Considere esto:
$c = \frac{S-S_{min}}{S_{max}-S_{min}}$
En este caso, $S$ es la suma de todas las distancias entre pares de observaciones en el mismo clúster a través de todos los grupos. Deje $n$ el número de estos pares. $S_{min}$ $S_{max}$ son las sumas de $n$ más bajo/más alto de las distancias entre todos los pares de observaciones. En el primer paso de la agrupación jerárquica, los dos más cercanos observaciones (distancia mínima) se fusionan en un clúster. Deje $d$ ser la distancia entre estas observaciones. Ahora hay un par de observaciones en el mismo clúster, por lo $n=1$ (todos los otros grupos son los únicos). En consecuencia,$S=d$. El problema es que $S_{min}$ también es igual a $d$, debido a $d$ es la menor distancia (que es por qué las observaciones donde se fusionaron en primer lugar). Así que para este caso, el C-Índice es siempre 0. Se mantiene a 0 mientras sólo singleton clusters se fusionan. Esto significa que el óptimo de la agrupación de acuerdo con el C-Índice de siempre consisten en un montón de grupos que contienen dos observaciones, y el resto de singleton. ¿Significa esto que el C-Index no es aplicable a la agrupación jerárquica? Estoy haciendo algo mal? He buscado mucho, pero no pudo encontrar ninguna explicación adecuada. Alguien puede darme el nombre de algún recurso que está disponible libremente en internet? O, si no, al menos, un libro que puede tratar de conseguir que en mi universidades de la biblioteca?
Gracias de antemano!