7 votos

Clustering en línea

Estoy tratando de construir un sistema de K-means clustering con 'learing en línea', es decir, existen K clusters y puntos de datos en ellos, y periódicamente hay un nuevo punto de datos que se envía a un grupo apropiado.

El problema es que se produce al intentar reclusterize/redistribuya, ya que se vuelve cada vez más caro con cada nuevo punto de datos. ¿Alguien puede recomendar una solución para esto?

4voto

A.Schulz Puntos 264

Dentro de la sofía-ml paquete hay código para un rápido k-means clustering basado en mini-lotes (ver artículo aquí). La otra cosa que usted puede hacer para acelerar las cosas es al Azar Proyecciones (ver, por ejemplo, aquí y aquí) - puesto en k-significa que todos los que están interesados en el es $\ell_2$ distancias, y al azar de las proyecciones de preservar estos (hasta algunos $\epsilon$).

1voto

Amadiere Puntos 5606

Leer la literatura original de k-means.

La publicación de MacQueen se basó en actualizar el resultado mediante la adición de puntos únicos.

Afectan la mayoría de personas parece utilizar iteratation Lloyd, donde haces las típicas iteraciones de EM, algo una "bulto versión" de MacQueen.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X