Estoy tratando de hacer clustering k-means difuso en un conjunto de datos utilizando la función cmeans (R) . El problema al que me enfrento es que los tamaños de los clusters no son los que me gustaría que fueran. Esto se hace calculando el cluster al que las observaciones están "más cerca".
cl$size
[1] 108 31 192 51 722 18460 67 1584 419 17270
Aquí vemos que para 10 racimos tenemos dos racimos enormes y muchos muy pequeños. ¿Implica esto que dos conglomerados son óptimos de alguna manera? Si hago K-means regular los 10 segmentos se ven muy bien, con buenos tamaños y su intepretación tiene mucho sentido pero me gustaría probar con fuzzy correctamente. Acabo de empezar a explorar este clustering difuso así que cualquier ayuda y punteros son excesivamente bienvenidos.
1 votos
¿Por qué no probar el paquete EM Cluster ahora disponible en R? cran.r-project.org/web/packages/EMCluster/EMCluster.pdf En el momento de escribir Anony, el paquete EM cluster no estaba disponible en R, pero ahora se puede utilizar para lograr la agrupación EM.