El k-means++ del algoritmo proporciona una técnica para elegir la inicial k semillas para el k-means el algoritmo. Esto se hace por muestreo el siguiente punto de acuerdo a una distribución multinomial sobre el unchosen puntos (donde la probabilidad de que un punto de ser elegido como el próximo centro es proporcional a $D(x)^2$ $D(x)$ siendo la distancia del punto de $x$ a su más cercano centro).
El punto con la mayor distancia que tiene la mayor probabilidad de ser elegido, pero ¿por qué no puedo elegir este punto de cada vez? ¿Qué ventaja voy a ganar por ser 'fuzzy' con mi selección de la semilla?