Aquí hay un ejemplo, si estuviera haciendo esto en mplus, que podría ser útil y complementar respuestas más completas:
Digamos que tengo 3 variables continuas y quiero identificar clusters basados en ellas. Especificaría un modelo de mezcla (más específicamente en este caso, un modelo de perfil latente), asumiendo la independencia condicional (las variables observadas son independientes, dada la pertenencia al clúster) como:
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
Yo ejecutaría este modelo varias veces, especificando cada vez un número diferente de clusters, y elegiría la solución que más me gustara (hacer esto es un tema muy amplio por sí solo).
Para ejecutar k-means, especificaría el siguiente modelo:
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
Por lo tanto, la pertenencia a una clase sólo se basa en la distancia a las medias de las variables observadas. Como se ha dicho en otras respuestas, las varianzas no tienen nada que ver.
Lo bueno de hacer esto en mplus es que se trata de modelos anidados, por lo que se puede comprobar directamente si las restricciones dan lugar a un peor ajuste o no, además de poder comparar la discordancia en la clasificación entre los dos métodos. Ambos modelos, por cierto, pueden ser estimados utilizando un algoritmo EM, por lo que la diferencia es realmente más sobre el modelo.
Si piensas en el espacio tridimensional, las 3 medias forman un punto... y las varianzas los tres ejes de un elipsoide que pasa por ese punto. Si las tres desviaciones son iguales, se obtiene una esfera.
0 votos
Esférico significa matrices de varianza-covarianza idénticas para cada clúster (suponiendo una distribución gaussiana), lo que también se conoce como agrupación basada en modelos. ¿Qué enfoque considera usted determinista?
2 votos
Estaría bien que dieras la fuente de la cita.
1 votos
K-means "asume" que los cúmulos son nubes más o menos redondas y sólidas (no muy alargadas o curvadas o simplemente anilladas) en el espacio euclidiano. No es necesario que procedan de normal distribuciones. EM sí lo requiere (o al menos conocer el tipo de distribución específica).