1 votos

¿Cuánta variación debe explicar un algoritmo de agrupación?

Al ejecutar un análisis de conglomerados, el algoritmo utilizado normalmente devuelve una medida de cuánta variación explica el conglomerado. p. ej.

"Esta agrupación explica el 96 % de la variación de los datos"

Sin embargo, no estoy seguro de qué parte de la variación debe explicar un método de agrupación para ser "suficientemente bueno", o qué poca varianza explicada es base para rechazar la agrupación y probar otro enfoque (por ejemplo, una cantidad diferente de agrupaciones).

¿Alguna norma general al respecto?

Gracias.

1voto

HEITZ Puntos 164

El comentario de ttnphns es correcto; el porcentaje de variación contabilizado está tan estrechamente ligado a la variabilidad de los datos que simplemente no existe una regla rígida. Además, la adición de conglomerados adicionales siempre aumentará el % de varianza contabilizada, por lo que lo que realmente hay que preguntarse es algo parecido a: ¿merece la pena añadir otro conglomerado (aumentando la complejidad) por el aumento del % de varianza contabilizada?

Un enfoque consiste en probar un cierto número de conglomerados, calcular el % de varianza contabilizado en cada paso y, a continuación, tratar de determinar algún umbral de cambio en la varianza a partir del cual la adición de conglomerados tenga poco rendimiento. Por ejemplo:

set.seed(1)
z = data.frame(x=1:200,y=c(runif(100,0,1),runif(100,1,2)))
p = numeric()

for (i in 1:4){
   K= kmeans(z,i)
   p[i] = 1 - K$tot.withinss / K$totss
}

plot(p,xlab='# of clusters',ylab='% variance accounted',type='o')

Change in % variance accounted for

0voto

Amadiere Puntos 5606

La agrupación en la que cada punto es su propio conglomerado explica el 100% de la varianza, ¿no?

¿Es un resultado útil? No.

No utilices esta medida como criterio. Es monótona y aumenta con el número de conglomerados.

En su lugar evaluar la agrupación por su tarea ayuda a resolver su problema real ?

Al final, necesitas un útil agrupación, no una que minimice/maximice alguna propiedad matemática, ¿no? ¿O es la propiedad matemática su problema?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X