Una forma es inspeccionar manualmente los miembros de sus clusters para un k específico para ver si las agrupaciones tienen sentido (¿son distinguibles?). Esto puede hacerse mediante tablas de contingencia y medias condicionales. Haga esto para una variedad de k y podrá determinar qué valor es el apropiado.
Una forma menos subjetiva es utilizar el valor de la silueta:
https://stackoverflow.com/questions/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function
Esto se puede calcular con su paquete de software favorito. Desde el enlace:
Este método sólo compara la similitud intragrupo con la similitud del grupo más cercano. Si la distancia media de cualquier miembro de los datos con respecto a otros miembros del mismo cluster es mayor que la distancia media con respecto a otros miembros del cluster, entonces este valor es negativo y la agrupación no tiene éxito. Por otro lado, los valores de silhuette cercanos a 1 indican una operación de clustering exitosa. 0,5 no es una medida exacta para la agrupación.
2 votos
Existen muchos criterios de agrupación, siendo la regla del "codo SS" sólo uno y no el mejor. Pruebe con otros. También es probable que no tenga clusters en sus datos.
0 votos
@ttnphns ¿Qué es ese otro místico del que hablas? ¿Cómo es posible que no tenga clusters en mis datos? ¿Cómo puedo saberlo?