4 votos

Buscando dispersas y de grandes dimensiones agrupación de aplicación

Estoy buscando una agrupación de aplicación con las siguientes características:

  • Soporte para datos de alta dimensión. Ahora tengo aproximadamente 160.000 dimensiones y características.
  • Ser capaz de gestionar la matriz dispersa. Es decir, no sólo leer las matrices dispersas, pero también capaz de realizar operaciones en este formato.
  • Muestra correctamente el centroide de cada cluster.

He probado algunos paquetes:

  • Rapidminer, que parece ser un devorador de memoria, supongo que porque a pesar de que es capaz de leer una matriz dispersa, no es capaz de trabajar con ellos tal como son.
  • Cluto, que es muy rápido y de bajo consumo de memoria, pero no es capaz de mostrar correctamente el centro de gravedad de los elementos (código fuente no está disponible). Muestra características descriptivas junto con un porcentaje de cómo esa característica contribuye a la media de la similitud, pero no está clara la info (aquí hay una pregunta acerca de que, sin una respuesta clara) acerca de cómo se calcula que, y también he clusters donde hay 0.0% pero no está claro para mí si esto significa que el programa es incapaz de demostrar una precisión superior o si esa característica no tiene nada que ver tho el promedio de similitud.

Agradezco cualquier comentario o respuesta al respecto.

2voto

Tagged Off Puntos 16

Te recomiendo que para ver la respuesta que JCWong dio en esta pregunta acerca de un método llamado 'dispersas de la agrupación' desarrollado por Robert Tibshirani & Daniela Witten. Este método es capaz de seleccionar las únicas características que son realmente la determinación de las diferencias entre los grupos en los datos. Está disponible como una R librería llamada 'sparcl'

El artículo es:

Witten DM y R Tibshirani (2010) Un marco para la selección de características en la agrupación. Revista de la Asociación Americana de Estadística 105(490): 713-726.

1voto

mcmahling Puntos 11

He tenido éxito con la CLARA función en R, desde el Clúster de paquete en una matriz con ~45,000 filas.

0voto

DarenW Puntos 161

Yo creo que se puede encontrar en Matlab muy útil para sus necesidades.
Aquí usted puede encontrar un video tutorial que explica cómo manejar grandes conjuntos de datos Y explica las nuevas características de las versiones x64 con respecto a la asignación de memoria, etc.
También Matlab es muy adecuado para la manipulación de matrices dispersas (y de cualquier tipo de matrices), contiene varias funciones integradas de usuario y proporciona funciones para el manejo de los centroides, y así sucesivamente.
Sólo mis 2 centavos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X