8 votos

Elegir el número de clusters - agrupación de validación de criterios vs dominio consideraciones teóricas

Yo a menudo se enfrentan al problema de tener que escoger un k número de clusters. La partición que al final me la elección es más a menudo basado en visual y teórico preocupaciones, en lugar de criterios de calidad.

Tengo dos preguntas principales.

La primera se refiere a la idea general de los clústeres de calidad. Por lo que yo entiendo criterios, tales como el "codo", se sugiere un valor óptimo en referencia a una función de coste. El problema que tengo con este marco es que el óptimo de criterios es ciego a consideración teórica, por lo que hay cierto grado de complejidad (relacionadas con su campo de estudio) que siempre se quiere en la final de grupos o clusters.

Por otra parte, como se explica aquí el valor óptimo está también relacionado con "aguas abajo propósito" restricciones (como las restricciones económicas), por lo que la consideración de lo que se va a hacer con la agrupación de la materia.

Una restricción obviamente que uno se enfrenta es el de encontrar sentido/significado interpretable grupos y más grupos que ud. tiene, más difícil es interpretar.

Pero esto no es siempre el caso, muy a menudo me encuentro con que de 8, 10 o 12 clusters son el mínimo de "interesante" el número de los grupos que me gustaría tener en mi análisis.

Sin embargo, muy a menudo criterios tales como el codo sugieren mucho menos clústeres, generalmente de 2, 3 o 4.

Q1. Lo que me gustaría saber es cuál es la mejor línea de argumento cuando decide elegir más de clusters en lugar de la solución propuesta por ciertos criterios (como el codo). Intuitivamente, cuanto más debe ser siempre mejor cuando no hay restricciones (como la inteligibilidad de los grupos o en el coursera ejemplo cuando se tiene una suma muy grande de dinero). ¿Cómo podría argumentar esto en un artículo científico?

Otra forma de expresar esto es decir que una vez identificado el número mínimo de grupos (con estos criterios), debería siquiera tener que justificar por qué eligió más agrupaciones que eso? No debería justificación vienen sólo a la hora de elegir la mínima significativa cantidad de clusters?

Q2. Relatedly, no entiendo cómo es que ciertas medidas de calidad, tales como la silueta, en realidad, puede disminuir a medida que el número de clusters en aumento. No veo en el horizonte la silueta de una penalización para el número de clusters, así que ¿cómo puede ser esto? Teóricamente, la más agrupaciones que tienen, mayor es el cluster de calidad?

# R code 

library(factoextra)

data("iris")
ir = iris[,-5]

# Hierarchical Clustering, Ward.D
# 5 clusters
ec5  = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean', 
              hc_method = 'ward.D', graph = T, k = 5)
# 20 clusters
ec20 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean', 
              hc_method = 'ward.D', graph = T, k = 20)

a = fviz_silhouette(ec5)  # silhouette plot
b = fviz_silhouette(ec20) # silhouette plot

c = fviz_cluster(ec5)  # scatter plot
d = fviz_cluster(ec20) # scatter plot

grid.arrange(a,b,c,d)

enter image description here

3voto

Alex Chin Puntos 131

Las llaves están encontrando significativa de los clusters y de lo que tiene valor en el resultado de los clusters.

Permítanme ilustrar con un ejemplo sencillo. El ejemplo es de dos Gaussianas grupos que están bastante separados. Utilizando k-means para dividir los datos en cualquiera de los 2 o 3 clusters tenemos estas particiones:

set.seed(1066)
x = c(rnorm(200,0,1), rnorm(200,6,1))
y = rnorm(400,0,1)
XY = data.frame(x,y)

KM2 = kmeans(XY, 2)
KM3 = kmeans(XY, 3)

par(mfrow=c(1,2))
plot(XY, pch=20, col=KM2$cluster+1, asp=1)
plot(XY, pch=20, col=KM3$cluster+1, asp=1)

Two and Three clusters

Silueta dice que es mejor con dos grupos en lugar de tres.

library(cluster)
plot(silhouette(KM2$cluster, dist(XY)))
plot(silhouette(KM3$cluster, dist(XY)))

Silhouette plots

Es útil considerar por qué la silueta se fue hacia abajo. Primero de todo, es fácil ver que para el clúster en la derecha, la silueta apenas cambió. La razón por la gran caída en el promedio de la silueta es el cluster de la izquierda que se ha dividido en dos. ¿Por qué no silueta como que? Como he dicho, usted necesita mirar lo que la métrica de los favores. Para cada punto, la silueta se compara el promedio de la distancia entre el punto y el resto de los puntos en el mismo grupo con el promedio de la distancia entre ese punto y el más cercano de otro clúster. Cuando había dos grupos, puntos en cada uno de los dos grupos estaban bien separados de los otros clúster. No es así con los tres grupos. Los puntos en los dos grupos de la izquierda son el uno contra el otro. Que es como la métrica puede ir hacia abajo. La silueta no sólo de recompensas de conglomerados en los que los puntos en un clúster están muy juntos; también sanciona las agrupaciones que no están bien separados unos de otros.

De modo que llega a las "aguas abajo propósito". Hay veces cuando bien separados de los clústeres no es tan importante. Por ejemplo, usted puede utilizar k-means clustering en los colores de una imagen para el grupo colores similares para la compresión de la imagen. En ese caso, como siempre que cada clúster es razonablemente consistente (compacto) no importa si a veces los dos grupos podría estar cerca el uno del otro. Sin embargo, a menudo uso de la gente de la agrupación como una forma de comprensión más fundamental estructura en sus datos. Por ejemplo, en las dos Gaussianas ejemplo anterior, los dos grupos se muestra la estructura subyacente mejor de tres grupos. Si usted está buscando para la estructura, desea que el número de los grupos que más fielmente representa natural de las agrupaciones de los datos. Pero estos son dos objetivos diferentes:

  1. una agrupación de puntos, donde los puntos en el mismo clúster están cerca uno del otro y

  2. una agrupación que también separa a los diferentes grupos

Su argumento de que más clústeres siempre debe ser mejor es ACEPTAR mientras que usted sólo desea puntos en el mismo clúster para estar cerca. Pero eso no es bueno si usted está tratando de descubrir los estructura. La estructura es lo que está en los datos. Tomando uno clúster y llamando a dos no es una mejora.

1voto

David Puntos 41

Tenga en cuenta que, de la validación cruzada también puede ser utilizado en la agrupación de problema.

Por ejemplo, en K significa, aumentando el número de clúster siempre va a disminuir el objetivo que se ajuste. Un caso extremo sería el número de clusters es igual al número de puntos de datos, y el objetivo es 0. Pero que es un overfitted modelo y se producirá un error en el conjunto de pruebas.

Mi sugerencia es la comprobación de la "agrupación medida de la calidad" en a cabo el conjunto de datos de prueba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X