Tengo un conjunto de datos de 10 millones de observaciones y 100 millones de características. Tengo que realizar clustering kmeans en ese conjunto de datos. El valor aproximado de k es 30000
¿Es recomendable realizar clustering con un número tan grande de características? ¿Cuáles son los problemas que puedo enfrentar al usar un número tan grande de características? (Actualmente, estoy enfrentando un error de 'OutofMemory' en Spark mllib kmeans)
¿No sería mejor realizar PCA para reducir el número de características o reingeniar los vectores de características de tal manera que contengan menos características? ¿Cuál debería ser el número ideal de características? ¿Existe algún documento sobre alta dimensionalidad y kmeans?