Estoy buscando una agrupación de aplicación con las siguientes características:
- Soporte para datos de alta dimensión. Ahora tengo aproximadamente 160.000 dimensiones y características.
- Ser capaz de gestionar la matriz dispersa. Es decir, no sólo leer las matrices dispersas, pero también capaz de realizar operaciones en este formato.
- Muestra correctamente el centroide de cada cluster.
He probado algunos paquetes:
- Rapidminer, que parece ser un devorador de memoria, supongo que porque a pesar de que es capaz de leer una matriz dispersa, no es capaz de trabajar con ellos tal como son.
- Cluto, que es muy rápido y de bajo consumo de memoria, pero no es capaz de mostrar correctamente el centro de gravedad de los elementos (código fuente no está disponible). Muestra características descriptivas junto con un porcentaje de cómo esa característica contribuye a la media de la similitud, pero no está clara la info (aquí hay una pregunta acerca de que, sin una respuesta clara) acerca de cómo se calcula que, y también he clusters donde hay 0.0% pero no está claro para mí si esto significa que el programa es incapaz de demostrar una precisión superior o si esa característica no tiene nada que ver tho el promedio de similitud.
Agradezco cualquier comentario o respuesta al respecto.