Véase también la respuesta de @ttnphns para una interpretación de k-means que realmente implica distancias euclidianas puntuales.
La forma en que se construye k-means es no se basa en las distancias .
K-means minimiza la varianza dentro del clúster. Ahora bien, si nos fijamos en la definición de varianza, ésta es idéntica a la suma de las distancias euclidianas al cuadrado desde el centro. (¡La respuesta de @ttnphns se refiere a las distancias euclidianas por pares!)
La idea básica de k-means es minimizar los errores al cuadrado . Aquí no hay "distancia".
Por qué no es correcto utilizar distancias arbitrarias: porque k-means puede dejar de converger con otras funciones de distancia . La prueba común de convergencia es la siguiente: el paso de asignación y el paso de actualización de la media, ambos optimizan el mismo criterio. Hay un número finito de asignaciones posibles. Por lo tanto, debe converger después de un número finito de mejoras. Para utilizar esta prueba para otras funciones de distancia, hay que demostrar que la media (nota: k- significa ) también minimiza sus distancias.
Si lo que se busca es una variante de k-means con distancia de Manhattan, existe k-medians. Porque la mediana es un mejor estimador L1 conocido.
Si quieres funciones de distancia arbitrarias, echa un vistazo a los k-medoides (también conocido como PAM, partición alrededor de los medoides). El medoide minimiza las distancias arbitrarias (porque es definido como el mínimo), y además sólo existe un número finito de medoides posibles. Sin embargo, es mucho más caro que la media.
1 votos
Esta pregunta se ha hecho ya unas 10 veces en stackoverflow y en este sitio. Por favor, utilice la función de búsqueda.
4 votos
@Anony-Mousse: Aunque estoy totalmente de acuerdo contigo y levanté un montón de banderas recientemente en SO, me parece preocupante la falta de cierre duplicado en la mayoría de estas cuestiones.
10 votos
Esta es la página que aparece primero al buscar en Google sobre este tema.