Qué algoritmo se debe usar para clúster de un enorme conjunto de datos binarios en algunas de las categorías?

Question

Qué algoritmo se debe usar para clúster de un enorme conjunto de datos binarios en algunas de las categorías?

Preguntado el 11 de Marzo, 2014: Cuando se hizo la pregunta
879 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Tengo un gran (650K filas * 62 columnas) de la matriz de datos binarios (0-1 sólo las entradas). La matriz es ralo: aproximadamente el 8% está lleno.

Me gustaría clúster en 5 grupos - decir el nombre de 1 a 5. He tratado de agrupamiento jerárquico y no fue capaz de controlar el tamaño. También he utilizado la de hamming basado en la distancia de agrupamiento k-means el algoritmo, teniendo en cuenta la 650K vectores de bits de longitud de 62. Yo no obtener resultados adecuados con cualquiera de estos.

Por favor, ayudar.

Preguntado el 11 de Marzo, 2014 por user2297600

Answer 1

2 Respuestas

Answer 2

10voto

Amadiere Puntos 5606

Usted está haciendo la pregunta equivocada.

En lugar de preguntar "¿qué algoritmo", usted debe estar preguntándose: "¿qué es un significativo categoría/grupo en su aplicación".

No estoy sorprendido de que los algoritmos anteriores no funcionan - que están diseñados para los diferentes casos de uso. k-means qué no trabajar con arbitraria otras distancias. No lo utilice con la distancia de Hamming. Hay una razón por la que es llamado k-significa, que sólo tiene sentido para usar cuando la media aritmética es significativo (lo cual no es para datos binarios).

Puede que desee probar k-modos de lugar, si mal no recuerdo esta es una variante que es en realidad destinados a ser usados con categorial de datos, y los datos binarios es algo categorial (pero dispersión todavía puede matar).

Pero primero de todo, has eliminado los duplicados para simplificar los datos, y se retira único/columnas vacías por ejemplo?

Tal vez APRIORI o enfoques similares también son más significativos para su problema.

De cualquier manera, primero averiguar lo que usted necesita, entonces el algoritmo que pueda resolver este desafío. El trabajo impulsado por los datos, no por tratar de forma aleatoria a los algoritmos.

Respondido el 11 de Marzo, 2014 por Amadiere (5606 Puntos )

Answer 3

4voto

itdxer Puntos 475

Tal vez me siento un poco tarde con la respuesta, pero probablemente sería útil para el cuerpo en el futuro.

La Teoría de Resonancia adaptativa es buen algoritmo para problemas de clasificación binaria. Verificación sobre el ARTE 1. Más información se puede ver en gratis de la Red Neuronal Diseño del libro en el capítulo 19.

Esta red de combinar una gran biológica idea y buena matemáticas implementación. También este algoritmo fácil en la aplicación y en este libro también se podría encontrar el paso a paso del algoritmo de descripción.

Respondido el 30 de Mayo, 2015 por itdxer (475 Puntos )

Qué algoritmo se debe usar para clúster de un enorme conjunto de datos binarios en algunas de las categorías?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Qué algoritmo se debe usar para clúster de un enorme conjunto de datos binarios en algunas de las categorías?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: