2 votos

Muestreo para validar una agrupación

Estoy intentando calcular el coeficiente de silueta en un conjunto de datos agrupados que son 550k, pero como el proceso es computacionalmente intensivo me quedo sin memoria y no puedo calcular el coeficiente de silueta.

Entonces, me pregunto si en lugar de validar todo el conjunto de datos, tomo una muestra (aleatoria o estratificada) y luego calculo el coeficiente de silueta sobre esa muestra.

2voto

Amadiere Puntos 5606

Sí, para un agregado simple como el coeficiente Silhouette es razonable calcularlo sólo en una muestra. En muchos casos, también puede estar bien hacer la agrupación completa sólo en dicha muestra (en particular si no se sabe lo que funciona) en lugar de perder el tiempo en calcularla en los datos completos.

En general, no sirve de mucho agrupar conjuntos de datos enormes: es caro, y si no se obtienen conocimientos adicionales en comparación con una muestra, ha sido una pérdida de tiempo. La gente tiende a tratar el clustering como un ejercicio de juguete y a escalarlo a conjuntos de datos enormes en los que los resultados no aportan ningún beneficio... La forma inteligente de utilizarlo es como generador de hipótesis; y para ello basta con una muestra de tamaño razonable. A continuación, puede plantear la hipótesis de qué clases de clientes tiene, etc., y -tras un análisis y una verificación humanos- etiquetar sus datos en consecuencia. La agrupación nunca ha sido algo que se pueda automatizar completamente, y nunca lo será.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X