1 votos

¿Cuál debería ser el número óptimo de características para 10 millones de observaciones para el agrupamiento kmeans?

Tengo un conjunto de datos de 10 millones de observaciones y 100 millones de características. Tengo que realizar clustering kmeans en ese conjunto de datos. El valor aproximado de k es 30000

¿Es recomendable realizar clustering con un número tan grande de características? ¿Cuáles son los problemas que puedo enfrentar al usar un número tan grande de características? (Actualmente, estoy enfrentando un error de 'OutofMemory' en Spark mllib kmeans)

¿No sería mejor realizar PCA para reducir el número de características o reingeniar los vectores de características de tal manera que contengan menos características? ¿Cuál debería ser el número ideal de características? ¿Existe algún documento sobre alta dimensionalidad y kmeans?

1voto

Matt Puntos 588

Cualquier algoritmo que dependa de una métrica de distancia en un espacio de alta dimensión sufrirá del problema de la maldición de la dimensionalidad. En efecto, todas tus observaciones van a parecer "lejanas" entre sí, con relativamente poca variación en la medida de la distancia, haciendo que el agrupamiento sea muy débil. Sería mucho mejor seleccionar características informativas y usar solo esas para construir tu métrica de distancia para el algoritmo de k-means. El número ideal de características es muy dependiente del problema, así que no hay una guía predefinida sobre un número establecido.

0voto

Amin Ghaderi Puntos 15

Realizar PCA antes de la agrupación de Kmeans es una práctica aceptable. El número de características para su número de muestras es bastante alto y supongo que muchas de ellas están correlacionadas. Le recomendaría probar PCA.

Solo cambie el número de componentes de PCA y vea cuánta de la varianza se explica (tal vez intente n_components = [100,1000,10000]). Una vez que esté satisfecho con el número de componentes, experimente con el número de clusters de kmeans y dibuje el gráfico de entropía para encontrar el punto de inflexión.

Kmeans y PCA son ambos no supervisados y requieren experimentación manual.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X