En primer lugar, a menos que su problema de agrupación sea un problema de agrupación trivial, los mínimos globales serán prácticamente imposibles de resolver (requiere enumerar todos los puntos de agrupación posibles). Por lo tanto, la solución de múltiples ejecuciones diferentes probablemente lo colocará en múltiples mínimos locales.
Aquí hay un par de recursos que discuten por qué los algoritmos de k-means no encuentran los mínimos globales. https://stackoverflow.com/questions/14577329/why-doesnt-k-means-give-the-global-minima
¿Por qué k-means no da el mínimo global?
Una forma de comparar los pesos aprendidos es comparar la potencia expresiva de sus respectivos clasificadores. Una forma de hacerlo es utilizando la diferencia L2 al cuadrado. $$\sum_{c}\sum_{x \in c}{(c-x)^2}$$ Dónde $c$ es siempre clúster, y $x$ representa cada punto de datos registrado en ese clúster. Cuanto menor sea la pérdida, mejor será el clasificador.
No creo que la comparación directa de los pesos de los clusters te dé mucha información sobre las ejecuciones individuales de k-means.
EDITAR: El comentario de los autores aclaró un poco más la cuestión.
Digamos que queremos comparar los pesos de dos k-means. Digamos que el $i$ El k-means produce $k$ del centroide $C_i: {c^i_0,c^i_1,...c^i_k}$ Ahora bien, el problema de comparar directamente los clusters en el mismo índice para diferentes ejecuciones de k-mean es que los clusters no tienen que estar necesariamente localizados en un índice específico. En una ejecución un centroide puede aparecer en el primer índice, mientras que en otra ejecución ese mismo centroide puede aparecer en un índice diferente. Este es un enfoque muy ingenuo. $$D[i,j]=\begin{bmatrix} ||c^i_0-c^j_0||_2^2&||c^i_0-c^j_1||_2^2&||c^i_0-c^j_k||_2^2 \\0&||c^i_1-c^j_1||_2^2&||c^i_1-c^j_k||_2^2 \\0&0&||c^i_k-c^j_k||_2^2 \end{bmatrix}.$$ Es la distancia entre cada centroide en dos ejecuciones de k-means. Tenga en cuenta que esta matriz sólo tiene que ser calculada para el triángulo superior debido a la simetría en la función de distancia utilizada (cuadrado $L2$ ).Entonces se puede calcular la distancia total entre dos recorridos k-mean como $$D(i,j)=\sum_i{min(D_i)}$$ .
Este es un enfoque muy ingenuo. No establece la restricción de que los índices sólo pueden aparecer una vez en la función mínima ( $1$ a $1$ entre cada centroide en dos recorridos k-mean). Para generalizar este enfoque a $n$ k-mean corre, se puede construir otra matriz de distancia como la anterior con cada entrada $D_{i,j}=D[i,j]$ Permítanme reiterar que este es un enfoque muy ingenuo. Pero muestra la distancia entre dos k-means, y tiene la buena propiedad de que si dos ejecuciones de k-mean aprenden los mismos centroides exactos, independientemente del orden de la distancia $D[i,j]=0$ .
Hazme saber si esto ayuda.