Hay más de un algoritmo k-means .
Probablemente se refiere a Algoritmo de Lloyds que sólo depende de los centros iniciales del grupo. Pero también está el de MacQueen, que depende de la secuencia es decir. ordenando de puntos. Luego está Hartigan, Wong, Forgy, ...
Y por supuesto, varios implementaciones pueden tener diferencias de aplicación y optimización. Pueden tratar enlaces de manera diferente, también! Por ejemplo, muchas implementaciones ingenuas siempre asignarán elementos al primer o último grupo cuando se empaten. Otras preservarán la asignación de clusters actual. Así que cuando se agrupan valores enteros, donde los empates son mucho más comunes, pero también en el conjunto de datos del Iris, se pueden ver artefactos y diferencias causadas por esto.
Además, los clústeres pueden terminar siendo reordenados por la dirección de memoria después de terminar k-means, por lo que no se puede asumir con seguridad que el clúster 1 sigue siendo el clúster 1 aunque k-means convergiera después de la primera iteración. Otros reordenarán los clústeres según el tamaño del clúster (lo que en realidad tiene sentido para k-means, ya que es más probable que devuelva el mismo resultado en una inicialización aleatoria diferente)
Pero asumiendo que todos iteren a Lloyd hasta la convergencia (¡lo cual no ocurrió con los medios originales de MacQueen!) todos deberían llegar al menos a un local óptima. Sólo habrá un óptimo local...
Consideremos, por ejemplo, el conjunto de datos generados por $p_j=( \sin (2 \pi \frac {j}{n}), \cos (2 \pi \frac {j}{n}))$ y dejar que $n$ ser divisible por $j$ . Habrá un lote de soluciones óptimas locales. Ejecutar los medios K con diferentes semillas al azar le dará soluciones muy diferentes. Para los parámetros apropiados, creo que la posibilidad de que dos elementos diferentes que estaban en el mismo cúmulo estén en el mismo cúmulo otra vez en otro resultado estará en algún lugar alrededor de $50\%$ . En una dimensionalidad más alta, probablemente se puede reducir aún más este número. Por ejemplo, en el $n$ conjunto de datos dimensionales donde $p_{jj}=1$ y $p_{ij}=0$ para $i \neq j$ todos los puntos son equidistantes. Es fácil ver que esto causará estragos en los medios de comunicación...