¿Por qué el algoritmo de agrupación de k-means sólo utiliza la métrica de la distancia euclidiana?

Question

¿Por qué el algoritmo de agrupación de k-means sólo utiliza la métrica de la distancia euclidiana?

Preguntado el 7 de Enero, 2014: Cuando se hizo la pregunta
14163 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

¿Existe un propósito específico en términos de eficiencia o funcionalidad por el que el algoritmo k-means no utiliza, por ejemplo, la (des)similitud del coseno como métrica de distancia, sino que sólo puede utilizar la norma euclidiana? En general, ¿el método K-means cumplirá y será correcto cuando se consideren o utilicen otras distancias distintas de la euclidiana?

[Añadido por @ttnphns. La cuestión es doble. La "distancia (no) euclidiana" puede referirse a la distancia entre dos puntos de datos o a la distancia entre un punto de datos y un centro de cluster. Ambas formas se han intentado abordar en las respuestas hasta ahora].

Preguntado el 7 de Enero, 2014 por Alejandra

1 votos

Esta pregunta se ha hecho ya unas 10 veces en stackoverflow y en este sitio. Por favor, utilice la función de búsqueda.

Comentado el 7 de Enero, 2014 por Amadiere

4 votos

@Anony-Mousse: Aunque estoy totalmente de acuerdo contigo y levanté un montón de banderas recientemente en SO, me parece preocupante la falta de cierre duplicado en la mayoría de estas cuestiones.

Comentado el 23 de Noviembre, 2016 por devviedev

10 votos

Esta es la página que aparece primero al buscar en Google sobre este tema.

Comentado el 21 de Octubre, 2017 por Vanshekaa

Answer 1

1 Respuestas

Answer 2

3voto

gauss Puntos 110

Desde aquí :

enter image description here

Consideremos dos documentos A y B representados por los vectores de la figura anterior. El coseno trata ambos vectores como vectores unitarios normalizándolos, lo que proporciona una medida del ángulo entre los dos vectores. Proporciona una medida precisa de la similitud, pero sin tener en cuenta la magnitud. Pero la magnitud es un factor importante al considerar la similitud.

Respondido el 7 de Enero, 2014 por gauss (110 Puntos )

0 votos

Esta es una respuesta general. No explica por qué en k-means no hay similitud de coseno. Por ejemplo, en el clustering jerárquico se utiliza mucho

Comentado el 7 de Enero, 2014 por Alejandra

3 votos

@DLDahly: A veces la magnitud es importante, a veces es ruido. Depende del campo de investigación y es una cuestión de estandarización de datos.

Comentado el 7 de Enero, 2014 por Uri

¿Por qué el algoritmo de agrupación de k-means sólo utiliza la métrica de la distancia euclidiana?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué el algoritmo de agrupación de k-means sólo utiliza la métrica de la distancia euclidiana?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: