Yo a menudo se enfrentan al problema de tener que escoger un k número de clusters. La partición que al final me la elección es más a menudo basado en visual y teórico preocupaciones, en lugar de criterios de calidad.
Tengo dos preguntas principales.
La primera se refiere a la idea general de los clústeres de calidad. Por lo que yo entiendo criterios, tales como el "codo", se sugiere un valor óptimo en referencia a una función de coste. El problema que tengo con este marco es que el óptimo de criterios es ciego a consideración teórica, por lo que hay cierto grado de complejidad (relacionadas con su campo de estudio) que siempre se quiere en la final de grupos o clusters.
Por otra parte, como se explica aquí el valor óptimo está también relacionado con "aguas abajo propósito" restricciones (como las restricciones económicas), por lo que la consideración de lo que se va a hacer con la agrupación de la materia.
Una restricción obviamente que uno se enfrenta es el de encontrar sentido/significado interpretable grupos y más grupos que ud. tiene, más difícil es interpretar.
Pero esto no es siempre el caso, muy a menudo me encuentro con que de 8, 10 o 12 clusters son el mínimo de "interesante" el número de los grupos que me gustaría tener en mi análisis.
Sin embargo, muy a menudo criterios tales como el codo sugieren mucho menos clústeres, generalmente de 2, 3 o 4.
Q1. Lo que me gustaría saber es cuál es la mejor línea de argumento cuando decide elegir más de clusters en lugar de la solución propuesta por ciertos criterios (como el codo). Intuitivamente, cuanto más debe ser siempre mejor cuando no hay restricciones (como la inteligibilidad de los grupos o en el coursera ejemplo cuando se tiene una suma muy grande de dinero). ¿Cómo podría argumentar esto en un artículo científico?
Otra forma de expresar esto es decir que una vez identificado el número mínimo de grupos (con estos criterios), debería siquiera tener que justificar por qué eligió más agrupaciones que eso? No debería justificación vienen sólo a la hora de elegir la mínima significativa cantidad de clusters?
Q2. Relatedly, no entiendo cómo es que ciertas medidas de calidad, tales como la silueta, en realidad, puede disminuir a medida que el número de clusters en aumento. No veo en el horizonte la silueta de una penalización para el número de clusters, así que ¿cómo puede ser esto? Teóricamente, la más agrupaciones que tienen, mayor es el cluster de calidad?
# R code
library(factoextra)
data("iris")
ir = iris[,-5]
# Hierarchical Clustering, Ward.D
# 5 clusters
ec5 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 5)
# 20 clusters
ec20 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 20)
a = fviz_silhouette(ec5) # silhouette plot
b = fviz_silhouette(ec20) # silhouette plot
c = fviz_cluster(ec5) # scatter plot
d = fviz_cluster(ec20) # scatter plot
grid.arrange(a,b,c,d)