16 votos

Qué algoritmo se debe usar para clúster de un enorme conjunto de datos binarios en algunas de las categorías?

Tengo un gran (650K filas * 62 columnas) de la matriz de datos binarios (0-1 sólo las entradas). La matriz es ralo: aproximadamente el 8% está lleno.

Me gustaría clúster en 5 grupos - decir el nombre de 1 a 5. He tratado de agrupamiento jerárquico y no fue capaz de controlar el tamaño. También he utilizado la de hamming basado en la distancia de agrupamiento k-means el algoritmo, teniendo en cuenta la 650K vectores de bits de longitud de 62. Yo no obtener resultados adecuados con cualquiera de estos.

Por favor, ayudar.

10voto

Amadiere Puntos 5606

Usted está haciendo la pregunta equivocada.

En lugar de preguntar "¿qué algoritmo", usted debe estar preguntándose: "¿qué es un significativo categoría/grupo en su aplicación".

No estoy sorprendido de que los algoritmos anteriores no funcionan - que están diseñados para los diferentes casos de uso. k-means qué no trabajar con arbitraria otras distancias. No lo utilice con la distancia de Hamming. Hay una razón por la que es llamado k-significa, que sólo tiene sentido para usar cuando la media aritmética es significativo (lo cual no es para datos binarios).

Puede que desee probar k-modos de lugar, si mal no recuerdo esta es una variante que es en realidad destinados a ser usados con categorial de datos, y los datos binarios es algo categorial (pero dispersión todavía puede matar).

Pero primero de todo, has eliminado los duplicados para simplificar los datos, y se retira único/columnas vacías por ejemplo?

Tal vez APRIORI o enfoques similares también son más significativos para su problema.

De cualquier manera, primero averiguar lo que usted necesita, entonces el algoritmo que pueda resolver este desafío. El trabajo impulsado por los datos, no por tratar de forma aleatoria a los algoritmos.

4voto

itdxer Puntos 475

Tal vez me siento un poco tarde con la respuesta, pero probablemente sería útil para el cuerpo en el futuro.

La Teoría de Resonancia adaptativa es buen algoritmo para problemas de clasificación binaria. Verificación sobre el ARTE 1. Más información se puede ver en gratis de la Red Neuronal Diseño del libro en el capítulo 19.

Esta red de combinar una gran biológica idea y buena matemáticas implementación. También este algoritmo fácil en la aplicación y en este libro también se podría encontrar el paso a paso del algoritmo de descripción.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X