5 votos

Cómo complementar los resultados del análisis de agrupamiento con grupos conocidos

Tengo ciertos conocimientos previos sobre agrupaciones, pero esto puede ser incorrecto o no ser suficiente ya que necesito un mayor número de grupos (es decir, subgrupos). Por ejemplo, en los siguientes datos tengo 3 grupos además de dos variables. Me gustaría usar la información de agrupación (como conocimiento previo) (aquí 3 grupos) para crear grupos significativos (aquí 9 grupos/clústeres). ¿Existe una forma correcta de realizar este análisis?

# Datos Dummy 
group <- rep(1:3, each =3000)
X <- c(rnorm(1000, 0.1, 0.04), rnorm(1000,0.2, 0.04), rnorm(1000, 0.4, 0.02),
       rnorm(1000, 0.4, 0.04), rnorm(1000,0.5, 0.08), rnorm(1000, 0.6, 0.12), 
       rnorm(1000, 0.7, 0.08), rnorm(1000,0.8, 0.1), rnorm(1000, 0.9, 0.06)
)

Y <-  c(rnorm(1000, 0.5, 0.04), rnorm(1000,0.6, 0.04), rnorm(1000, 0.7, 0.04),
       rnorm(1000, 0.35, 0.12), rnorm(1000,0.45, 0.04), rnorm(1000, 0.3, 0.02), 
       rnorm(1000, 0.55, 0.09), rnorm(1000,0.65, 0.12), rnorm(1000, 0.65, 0.04)
)

Información previa de 3 clústeres:

col = c("red", "cyan", "green")
plot(cbind(X,Y), col = col[group], pch = ".")

introducir descripción de la imagen aquí

Análisis de agrupamiento asumiendo 9 clústeres.

cl <- kmeans(cbind(X,Y), 9)

colrs <- c("red","purple", "yellow", "tan", "pink", "cyan", "blue", "green", "black")
plot(cbind(X,Y), col = colrs[cl$cluster], pch = ".")

introducir descripción de la imagen aquí

0 votos

Estás buscando una prueba formal de la existencia de 9 conglomerados distintos cuando los datos se evalúan en 2 dimensiones. ¿Es correcto?

0 votos

Estoy tratando de usar la información de cluster previa (es decir, grupo) que tengo en el análisis de clusters (información posterior) - el cluster puede ser cualquier número. La suposición aquí es que la información de cluster previa puede guiar el agrupamiento particularmente en una situación de confusión

1voto

Amadiere Puntos 5606

Esto es conocido en la literatura como clustering de restricciones.

Puedes especificar "restricciones", a menudo en forma de

  • enlace obligatorio, es decir, dos objetos que deben estar en el mismo grupo
  • enlace prohibido, es decir, dos objetos que no deben estar en el mismo grupo

Es todo un subdominio (aunque pequeño) del clustering.

0 votos

La agrupación de restricciones está disponible en el paquete R rioja ran.r-project.org/web/packages/rioja/rioja.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X