8 votos

¿Por qué sólo el valor medio se utiliza en método de clustering (K-means)?

En la agrupación de métodos tales como K-means, la distancia euclídea es la métrica a utilizar. Como resultado, sólo nos calcular la media de los valores dentro de cada clúster. Y, a continuación, se realizan ajustes en los elementos en base a su distancia a cada valor de la media.

Me preguntaba por qué la función de Gauss no se utiliza como métrica? En lugar de utilizar xi -mean(X), podemos usar exp(- (xi - mean(X)).^2/std(X).^2). Así, no sólo la similitud entre los grupos son medidos (media), pero la similitud en el marco del grupo es también considerado (ets). Esto es equivalente al modelo de mezcla de Gaussianas?

Es más allá de mi pregunta, pero me parece que mean-shift puede surgir la misma pregunta de arriba.

5voto

Amadiere Puntos 5606

Hay literalmente miles de k-significa que las variaciones. Incluso los refrescos de asignación, la varianza y la covarianza (por lo general referido como Gaussiano Mezcla de Modelado o algoritmo EM).

Sin embargo, me gustaría señalar un par de cosas:

  • K-significa que no está basado en la distancia Euclídea. Se basa en la minimización de la varianza. Dado que la varianza es la suma de los cuadrados de las distancias Euclídeas, la varianza mínima de asignación es el que tiene la menor Euclídea al cuadrado y la raíz cuadrada de la función es monótona. Por razones de eficiencia, que en realidad es más inteligente para no calcular la distancia Euclídea (pero el uso de las plazas)

  • Si se conecta a una distancia diferente en función de k-means se puede dejar de convergencia. Usted necesita para minimizar el mismo criterio en ambos pasos; el segundo paso es la posibilidad de los medios. Estimando el centro utilizando la media aritmética es un estimador de mínimos cuadrados, y se reducirá al mínimo la varianza. Dado que tanto las funciones de minimizar la varianza de k-medios deben converger. Si desea asegurarse de convergencia con otras distancias, uso de PAM (particionado en torno a medoids. El medoid minimiza el plazo de un clúster de distancias arbitrarias de las funciones de la distancia.)

Pero en fin, k-means y todas sus variaciones son en mi humilde opinión más de una optimización (o, más precisamente, una de cuantización vectorial algoritmo) que en realidad un análisis de cluster algoritmo. Ellos en realidad no "descubrir" de la estructura. Se masajea tus datos en k particiones. Si les das de datos uniforme, sin estructura más allá de la aleatoriedad a todos, k-significa que va a encontrar, sin embargo, muchos "grupos" que usted desea encontrar. k-means es feliz con la devolución de resultados que son esencialmente aleatoria.

3voto

Nick Russo Puntos 51

Hay un montón de diferentes técnicas de agrupamiento por ahí, y K-means es sólo una aproximación. Como DL Dahly comentó, EM, se pueden usar algoritmos de clustering en la forma en la que usted describe. Vale la pena señalar que la principal diferencia entre K-means y el uso de EM con un guassian mezcla de modelo para la agrupación es la forma de los clusters: el centroide todavía se aproximan a la media de los puntos en el grupo, pero K le dará un esférico de clúster, mientras que un núcleo gaussiano se le dará un elipsoide.

La agrupación jerárquica utiliza un enfoque totalmente diferente. Densidad basado en la agrupación está motivado por una similar heurística como media basado en la agrupación, pero, obviamente, le da diferentes resultados. Hay un montón de técnicas de clustering que no tienen en cuenta ningún tipo de media.

Realmente cuando se llega a esto, la elección de algoritmo es una función del dominio del problema y la experimentación (es decir, ver lo que funciona).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X