Tengo ciertos conocimientos previos sobre agrupaciones, pero esto puede ser incorrecto o no ser suficiente ya que necesito un mayor número de grupos (es decir, subgrupos). Por ejemplo, en los siguientes datos tengo 3 grupos además de dos variables. Me gustaría usar la información de agrupación (como conocimiento previo) (aquí 3 grupos) para crear grupos significativos (aquí 9 grupos/clústeres). ¿Existe una forma correcta de realizar este análisis?
# Datos Dummy
group <- rep(1:3, each =3000)
X <- c(rnorm(1000, 0.1, 0.04), rnorm(1000,0.2, 0.04), rnorm(1000, 0.4, 0.02),
rnorm(1000, 0.4, 0.04), rnorm(1000,0.5, 0.08), rnorm(1000, 0.6, 0.12),
rnorm(1000, 0.7, 0.08), rnorm(1000,0.8, 0.1), rnorm(1000, 0.9, 0.06)
)
Y <- c(rnorm(1000, 0.5, 0.04), rnorm(1000,0.6, 0.04), rnorm(1000, 0.7, 0.04),
rnorm(1000, 0.35, 0.12), rnorm(1000,0.45, 0.04), rnorm(1000, 0.3, 0.02),
rnorm(1000, 0.55, 0.09), rnorm(1000,0.65, 0.12), rnorm(1000, 0.65, 0.04)
)
Información previa de 3 clústeres:
col = c("red", "cyan", "green")
plot(cbind(X,Y), col = col[group], pch = ".")
Análisis de agrupamiento asumiendo 9 clústeres.
cl <- kmeans(cbind(X,Y), 9)
colrs <- c("red","purple", "yellow", "tan", "pink", "cyan", "blue", "green", "black")
plot(cbind(X,Y), col = colrs[cl$cluster], pch = ".")
0 votos
Estás buscando una prueba formal de la existencia de 9 conglomerados distintos cuando los datos se evalúan en 2 dimensiones. ¿Es correcto?
0 votos
Estoy tratando de usar la información de cluster previa (es decir, grupo) que tengo en el análisis de clusters (información posterior) - el cluster puede ser cualquier número. La suposición aquí es que la información de cluster previa puede guiar el agrupamiento particularmente en una situación de confusión