4 votos

Generación de conglomerados de tamaño uniforme en scikit-learn

Estoy intentando generar clusters de tamaño aproximadamente uniforme de un conjunto de características PCA en Scikit-learn, pero no estoy teniendo suerte. Sólo estoy familiarizado con el clustering KMeans, y con ese algoritmo el cluster más grande contiene la mayoría de los ejemplos (en el caso de K=2 es el 80%, en K=4 es el 65%, etc...). He hecho algunos experimentos básicos con MeanShift y AffinityPropagation por defecto, pero no he tenido suerte.

Aquí es donde un título de posgrado habría sido útil, pero mientras tanto, ¿alguien puede indicarme algunos buenos recursos sobre qué tipos de algoritmos de agrupación pueden controlar el tamaño de los grupos (¡específicamente cualquiera que esté implementado en sklearn!)?

Me doy cuenta de que esta pregunta es super vaga, pero no estoy seguro de qué información es relevante para el problema. Mi conjunto de datos comienza como una combinación de variables continuas normalizadas y codificación de una sola vez para las variables categóricas. Las 36 características originales se reducen con PCA a 20 características que describen más del 99% de la varianza. Los intentos de modificar mi conjunto de datos pre-PCA no afectan realmente a la forma en que la agrupación divide los ejemplos.

Gracias por cualquier sugerencia o aportación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X