Muestreo para validar una agrupación

Question

Muestreo para validar una agrupación

Preguntado el 23 de Septiembre, 2019: Cuando se hizo la pregunta
68 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy intentando calcular el coeficiente de silueta en un conjunto de datos agrupados que son 550k, pero como el proceso es computacionalmente intensivo me quedo sin memoria y no puedo calcular el coeficiente de silueta.

Entonces, me pregunto si en lugar de validar todo el conjunto de datos, tomo una muestra (aleatoria o estratificada) y luego calculo el coeficiente de silueta sobre esa muestra.

Preguntado el 23 de Septiembre, 2019 por surfitscrollit

Answer 1

1 Respuestas

Answer 2

2voto

Amadiere Puntos 5606

Sí, para un agregado simple como el coeficiente Silhouette es razonable calcularlo sólo en una muestra. En muchos casos, también puede estar bien hacer la agrupación completa sólo en dicha muestra (en particular si no se sabe lo que funciona) en lugar de perder el tiempo en calcularla en los datos completos.

En general, no sirve de mucho agrupar conjuntos de datos enormes: es caro, y si no se obtienen conocimientos adicionales en comparación con una muestra, ha sido una pérdida de tiempo. La gente tiende a tratar el clustering como un ejercicio de juguete y a escalarlo a conjuntos de datos enormes en los que los resultados no aportan ningún beneficio... La forma inteligente de utilizarlo es como generador de hipótesis; y para ello basta con una muestra de tamaño razonable. A continuación, puede plantear la hipótesis de qué clases de clientes tiene, etc., y -tras un análisis y una verificación humanos- etiquetar sus datos en consecuencia. La agrupación nunca ha sido algo que se pueda automatizar completamente, y nunca lo será.

Respondido el 23 de Septiembre, 2019 por Amadiere (5606 Puntos )

Muestreo para validar una agrupación

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Muestreo para validar una agrupación

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: