Tengo un algoritmo de clustering (no k-means) con el parámetro de entrada kk (número de grupos). Después de realizar el clustering me gustaría obtener alguna medida cuantitativa de la calidad de este clustering. El algoritmo de clustering tiene una propiedad importante. Para k=2k=2 si me alimentan NN puntos de datos sin ninguna distinción significativa entre ellos a este algoritmo como resultado obtendré un cluster que contiene N−1N−1 puntos de datos y un clúster con 11 punto de datos. Obviamente, esto no es lo que quiero. Así que quiero calcular esta medida de calidad para estimar la razonabilidad de esta agrupación. Lo ideal sería poder comparar estas medidas para diferentes kk . Así que voy a ejecutar la agrupación en el rango de kk y elija el de mejor calidad. Cómo calcular esa medida de calidad?
ACTUALIZACIÓN:
Este es un ejemplo cuando (N−1,1)(N−1,1) es una mala agrupación. Digamos que hay 3 puntos en un plano que forman un triángulo equilátero. Dividir estos puntos en 2 clusters es obviamente peor que dividirlos en 1 o 3 clusters.