He leído que el k-means el algoritmo sólo converge a un mínimo local y no a un mínimo global. ¿Por qué es esto? Yo, lógicamente, pensar en cómo inicialización podría afectar a la final de la agrupación y hay una posibilidad de sub-óptima de la agrupación, pero no he encontrado nada que demostrar matemáticamente que.
También, ¿por qué k-significa un proceso iterativo? No podemos sólo parcialmente diferenciar la función objetivo w.r.t. a los centroides, igualar a cero para encontrar los centroides que minimiza esta función? ¿Por qué tenemos que usar el gradiente de la pendiente para alcanzar el mínimo paso por paso?