Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

20 votos

Cómo definir el número de conglomerados de K-means clustering?

Es allí cualquier manera de determinar el óptimo número de clúster o debo probar diferentes valores y comprobación de las tasas de error para decidir sobre el mejor valor?

8voto

Steve Scheffler Puntos 1166

El método que yo uso es el uso de la CCC (metro Cúbico de Agrupación de Criterios). Busco CCC a aumentar a un máximo de como puedo incrementar el número de grupos 1 y, a continuación, observar cuando el CCC comienza a disminuir. En ese momento me tome el número de grupos (locales) como máximo. Esto sería similar a utilizar un gráfico de sedimentación de elegir el número de componentes principales.


SAS Informe Técnico a-108 Cúbicos de Clústeres de Criterio (pdf)

n = número de observaciones
nk = número de clúster k
p = número de variables
q = número de clústeres
X = n×p matriz de datos
M = q×p matriz de clúster de medios
Z = indicador de clúster (zik=1 si obs. i en el clúster k, 0 en caso contrario)

Asumir que cada variable tiene una media de 0:
ZZ=diag(n1,,nq), M=(ZZ)1ZX

SS(total) de la matriz = T= XX
SS(entre grupos) de la matriz = B = MZZM
SS(dentro de los clusters) de la matriz = W = TB

R^2 = 1 – \frac{\text{trace(W)}}{\text{trace}(T)}
(trace = suma de los elementos de la diagonal)

Pila de columnas de a X en una larga columna.
Retroceder en el producto de Kronecker de Z p\times p matriz identidad
Calcular R^2 para esta regresión mismo R^2

La CCC idea es comparar el R^2 usted obtiene para un determinado conjunto de conglomerados con el R^2 puede obtener mediante la agrupación en clústeres en un distribuida uniformemente en un conjunto de puntos en p espacio tridimensional.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X