97 votos

¿Por qué el algoritmo de agrupación de k-means sólo utiliza la métrica de la distancia euclidiana?

¿Existe un propósito específico en términos de eficiencia o funcionalidad por el que el algoritmo k-means no utiliza, por ejemplo, la (des)similitud del coseno como métrica de distancia, sino que sólo puede utilizar la norma euclidiana? En general, ¿el método K-means cumplirá y será correcto cuando se consideren o utilicen otras distancias distintas de la euclidiana?

[Añadido por @ttnphns. La cuestión es doble. La "distancia (no) euclidiana" puede referirse a la distancia entre dos puntos de datos o a la distancia entre un punto de datos y un centro de cluster. Ambas formas se han intentado abordar en las respuestas hasta ahora].

1 votos

Esta pregunta se ha hecho ya unas 10 veces en stackoverflow y en este sitio. Por favor, utilice la función de búsqueda.

4 votos

@Anony-Mousse: Aunque estoy totalmente de acuerdo contigo y levanté un montón de banderas recientemente en SO, me parece preocupante la falta de cierre duplicado en la mayoría de estas cuestiones.

10 votos

Esta es la página que aparece primero al buscar en Google sobre este tema.

3voto

gauss Puntos 110

Desde aquí :

enter image description here

Consideremos dos documentos A y B representados por los vectores de la figura anterior. El coseno trata ambos vectores como vectores unitarios normalizándolos, lo que proporciona una medida del ángulo entre los dos vectores. Proporciona una medida precisa de la similitud, pero sin tener en cuenta la magnitud. Pero la magnitud es un factor importante al considerar la similitud.

0 votos

Esta es una respuesta general. No explica por qué en k-means no hay similitud de coseno. Por ejemplo, en el clustering jerárquico se utiliza mucho

3 votos

@DLDahly: A veces la magnitud es importante, a veces es ruido. Depende del campo de investigación y es una cuestión de estandarización de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X