Estoy intentando generar clusters de tamaño aproximadamente uniforme de un conjunto de características PCA en Scikit-learn, pero no estoy teniendo suerte. Sólo estoy familiarizado con el clustering KMeans, y con ese algoritmo el cluster más grande contiene la mayoría de los ejemplos (en el caso de K=2 es el 80%, en K=4 es el 65%, etc...). He hecho algunos experimentos básicos con MeanShift y AffinityPropagation por defecto, pero no he tenido suerte.
Aquí es donde un título de posgrado habría sido útil, pero mientras tanto, ¿alguien puede indicarme algunos buenos recursos sobre qué tipos de algoritmos de agrupación pueden controlar el tamaño de los grupos (¡específicamente cualquiera que esté implementado en sklearn!)?
Me doy cuenta de que esta pregunta es super vaga, pero no estoy seguro de qué información es relevante para el problema. Mi conjunto de datos comienza como una combinación de variables continuas normalizadas y codificación de una sola vez para las variables categóricas. Las 36 características originales se reducen con PCA a 20 características que describen más del 99% de la varianza. Los intentos de modificar mi conjunto de datos pre-PCA no afectan realmente a la forma en que la agrupación divide los ejemplos.
Gracias por cualquier sugerencia o aportación.