He recibido la siguiente pregunta como pregunta de prueba para mi examen y simplemente no puedo entender la respuesta.
Un gráfico de dispersión de los datos proyectados en los dos primeros componentes principales se muestra a continuación. Queremos examinar si existe alguna estructura de grupo en el conjunto de datos. Para hacer esto, hemos ejecutado el algoritmo k-means con k = 2 utilizando la medida de distancia euclidiana. El resultado del algoritmo k-means puede variar entre ejecuciones dependiendo de las condiciones iniciales aleatorias. Ejecutamos el algoritmo varias veces y obtuvimos algunos resultados de agrupamiento diferentes.
Solo tres de los cuatro agrupamientos mostrados se pueden obtener ejecutando el algoritmo k-means en los datos. ¿Cuál no se puede obtener mediante k-means? (no hay nada especial sobre los datos)
La respuesta correcta es D. ¿Alguno de ustedes puede explicar por qué?
2 votos
Sería bueno saber cómo tu maestro o profesor explica esto
3 votos
Esta es la respuesta dada por mi profesor: El algoritmo de k-means procede hasta la convergencia calculando la media de cada cluster y asignando objetos de datos al cluster más cercano. Si el agrupamiento en D fuera una solución, las medias de los dos clusters estarían alrededor de -1,8 y 0 en el eje PC2, lo que obligaría a los objetos de datos entre -0,9 y -1,8 en el eje PC2 a agruparse en el primer cluster en la siguiente iteración del algoritmo de k-means. Por lo tanto, D no puede ser una solución.