¿Existe un propósito específico en términos de eficiencia o funcionalidad por el que el algoritmo k-means no utiliza, por ejemplo, la (des)similitud del coseno como métrica de distancia, sino que sólo puede utilizar la norma euclidiana? En general, ¿el método K-means cumplirá y será correcto cuando se consideren o utilicen otras distancias distintas de la euclidiana?
[Añadido por @ttnphns. La cuestión es doble. La "distancia (no) euclidiana" puede referirse a la distancia entre dos puntos de datos o a la distancia entre un punto de datos y un centro de cluster. Ambas formas se han intentado abordar en las respuestas hasta ahora].
1 votos
Esta pregunta se ha hecho ya unas 10 veces en stackoverflow y en este sitio. Por favor, utilice la función de búsqueda.
4 votos
@Anony-Mousse: Aunque estoy totalmente de acuerdo contigo y levanté un montón de banderas recientemente en SO, me parece preocupante la falta de cierre duplicado en la mayoría de estas cuestiones.
10 votos
Esta es la página que aparece primero al buscar en Google sobre este tema.