26 votos

Medida de la calidad de la agrupación

Tengo un algoritmo de clustering (no k-means) con el parámetro de entrada kk (número de grupos). Después de realizar el clustering me gustaría obtener alguna medida cuantitativa de la calidad de este clustering. El algoritmo de clustering tiene una propiedad importante. Para k=2k=2 si me alimentan NN puntos de datos sin ninguna distinción significativa entre ellos a este algoritmo como resultado obtendré un cluster que contiene N1N1 puntos de datos y un clúster con 11 punto de datos. Obviamente, esto no es lo que quiero. Así que quiero calcular esta medida de calidad para estimar la razonabilidad de esta agrupación. Lo ideal sería poder comparar estas medidas para diferentes kk . Así que voy a ejecutar la agrupación en el rango de kk y elija el de mejor calidad. Cómo calcular esa medida de calidad?

ACTUALIZACIÓN:

Este es un ejemplo cuando (N1,1)(N1,1) es una mala agrupación. Digamos que hay 3 puntos en un plano que forman un triángulo equilátero. Dividir estos puntos en 2 clusters es obviamente peor que dividirlos en 1 o 3 clusters.

18voto

John Richardson Puntos 1197

La elección de la métrica depende más bien de lo que se considere el propósito de la agrupación. Personalmente, creo que la agrupación debería consistir en identificar diferentes grupos de observaciones, cada uno de ellos generado por un proceso de generación de datos diferente. Así que yo probaría la calidad de una agrupación generando datos a partir de procesos de generación de datos conocidos y luego calcularía la frecuencia con la que los patrones son clasificados erróneamente por la agrupación. Por supuesto, esto implicaba hacer suposiciones sobre la distribución de los patrones de cada proceso de generación, pero se pueden utilizar conjuntos de datos diseñados para la clasificación supervisada.

Otros consideran que el clustering trata de agrupar puntos con valores de atributos similares, en cuyo caso son aplicables medidas como el SSE, etc. Sin embargo, esta definición de clustering me parece bastante insatisfactoria, ya que sólo dice algo sobre la muestra particular de datos, en lugar de algo generalizable sobre las distribuciones subyacentes. El modo en que los métodos tratan los conglomerados superpuestos es un problema particular de este punto de vista (para el punto de vista del "proceso de generación de datos" no causa ningún problema real, sólo se obtienen las probabilidades de pertenencia a los conglomerados).

7voto

AlberT Puntos 6591

El Silueta puede utilizarse para evaluar los resultados de la agrupación. Lo hace comparando la distancia media dentro de un clúster con la distancia media a los puntos del clúster más cercano.

5voto

Chillie Puntos 281

Te has topado con el área de validación de la agrupación. Mi estudiante hizo la validación utilizando las técnicas descritas en:

A. Banerjee y R. N. Dave. Validación de clusters mediante el estadístico de Hopkins. 2004 IEEE International Conference on Fuzzy Systems IEEE Cat No04CH37542, 1:p. 149–153, 2004.

Se basa en el principio de que si un clúster es válido, los puntos de datos se distribuyen uniformemente dentro de un clúster.

Pero antes debe determinar si sus datos tienen la llamada Tendencia a la Agrupación, es decir, si vale la pena agruparlos y el número óptimo de clusters:

S. Saitta, B. Raphael e I. F. C. Smith. A comprehensive validity index for clustering. Intell. Data Anal., 12(6):p. 529–548, 2008.

5voto

Assaf Lavie Puntos 207

Aquí tienes un par de medidas, pero hay muchas más:

SSE: suma del error cuadrático de los elementos de cada cluster.

Distancia entre clusters: suma de la distancia cuadrada entre cada centroide del cluster.

Distancia intraclúster para cada clúster: suma de la distancia cuadrada de los elementos de cada clúster a su centroide.

Radio máximo: mayor distancia de una instancia a su centroide de cluster.

Radio medio: suma de la mayor distancia de una instancia a su centroide de cluster dividida por el número de clusters.

2voto

KitCarrau Puntos 131

Si el algoritmo de agrupación no es determinista, entonces intente medir la "estabilidad" de las agrupaciones - averigüe con qué frecuencia cada dos observaciones pertenecen al mismo clúster. Es un método generalmente interesante, útil para elegir k en el algoritmo kmeans.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X