El MMG utiliza solapamiento colinas que se extienden hasta el infinito (pero prácticamente sólo cuentan para 3 sigma). Cada punto recibe todos las puntuaciones de probabilidad de las colinas. Además, las colinas tienen "forma de huevo" [vale, son simétricas elipses ] y, utilizando la matriz de covarianza completa, puede ser inclinado .
K-means asigna un punto a un solo por lo que se ignoran las puntuaciones de los otros centros de cluster (se ponen implícitamente a cero/no importan). Las colinas son pompas de jabón esféricas. Cuando dos pompas de jabón se tocan, el límite entre ellas se convierte en un (hiper)plano. Del mismo modo que cuando soplas una espuma de muchas pompas de jabón, las pompas del interior no son planas, sino que tienen forma de caja, los límites entre muchas (hiper)esferas forman en realidad una partición de Voronoi del espacio. En 2D, esto tiende a parecerse vagamente a un empaquetamiento hexagonal, como una colmena de abejas (aunque, por supuesto, no está garantizado que las celdas de Voronoi sean hexágonos). Una colina K-means es redonda y no se inclina, por lo que tiene menos poder de representación; pero es mucho más rápida de calcular, especialmente en las dimensiones más altas.
Como K-means utiliza la métrica de distancia euclidiana, asume que las dimensiones son comparables y tienen el mismo peso. Así que si la dimensión X tiene unidades de millas por hora, que varían de 0 a 80, y la dimensión Y tiene unidades de libras, que varían de 0 a 400, y usted está ajustando círculos en este espacio XY, entonces una dimensión (y su dispersión) va a ser más potente que la otra dimensión y eclipsará los resultados. Por eso es habitual normalizar los datos al tomar K-means.
Tanto GMM como K-means modelo los datos ajustando las mejores aproximaciones a lo dado. GMM se ajusta a los huevos inclinados y K-means a las esferas inclinadas. Pero los datos subyacentes podrían tener la forma que quisieran, podrían ser una espiral o un cuadro de Picasso, y cada algoritmo seguiría funcionando y haciendo su mejor intento. Que el modelo resultante se parezca o no a los datos reales depende del proceso físico subyacente que los genera. (Por ejemplo, las mediciones de retardo temporal son unilaterales; ¿se ajusta bien una gaussiana? Tal vez).
Sin embargo, tanto GMM como K-means asumen implícitamente ejes/dominios de datos procedentes del campo de los números reales Rn . Esto importa en función de lo que amable del eje/dominio de datos que está intentando agrupar. Los recuentos enteros ordenados se asignan bien a los reales. Los símbolos ordenados, como los colores de un espectro, no tanto. Símbolos binarios. Los símbolos desordenados no se asignan a los reales en absoluto (a menos que esté utilizando nuevas matemáticas creativas desde el año 2000).
Así, su imagen binaria de 8x8 se interpretará como un hipercubo de 64 dimensiones en el primer hipercuadrante. A continuación, los algoritmos utilizan analogías geométricas para encontrar clusters. La distancia, con K-means, aparece como distancia euclidiana en un espacio de 64 dimensiones. Es una forma de hacerlo.