Es allí cualquier manera de determinar el óptimo número de clúster o debo probar diferentes valores y comprobación de las tasas de error para decidir sobre el mejor valor?
Respuesta
¿Demasiados anuncios?El método que yo uso es el uso de la CCC (metro Cúbico de Agrupación de Criterios). Busco CCC a aumentar a un máximo de como puedo incrementar el número de grupos 1 y, a continuación, observar cuando el CCC comienza a disminuir. En ese momento me tome el número de grupos (locales) como máximo. Esto sería similar a utilizar un gráfico de sedimentación de elegir el número de componentes principales.
SAS Informe Técnico a-108 Cúbicos de Clústeres de Criterio (pdf)
n = número de observaciones
nk = número de clúster k
p = número de variables
q = número de clústeres
X = n×p matriz de datos
M = q×p matriz de clúster de medios
Z = indicador de clúster (zik=1 si obs. i en el clúster k, 0 en caso contrario)
Asumir que cada variable tiene una media de 0:
Z′Z=diag(n1,⋯,nq), M=(Z′Z)−1Z′X
SS(total) de la matriz = T= X′X
SS(entre grupos) de la matriz = B = M′Z′ZM
SS(dentro de los clusters) de la matriz = W = T−B
R^2 = 1 – \frac{\text{trace(W)}}{\text{trace}(T)}
(trace = suma de los elementos de la diagonal)
Pila de columnas de a X en una larga columna.
Retroceder en el producto de Kronecker de Z p\times p matriz identidad
Calcular R^2 para esta regresión mismo R^2
La CCC idea es comparar el R^2 usted obtiene para un determinado conjunto de conglomerados con el R^2 puede obtener mediante la agrupación en clústeres en un distribuida uniformemente en un conjunto de puntos en p espacio tridimensional.