Actualmente, estoy estudiando el avance en el análisis de conglomerados en relación con agrupación de flujos . Terminé evaluando El mini lote K significa por algunos comentarios que he leído en Internet, como el siguiente:
Muchos algoritmos de agrupación puede ser ajustado para que sea adecuado para la agrupación de flujos . No conozco muchas implementaciones en scikit-learn que lo hagan fuera de la caja, aparte de MiniBatchKMeans y Birch, que tienen un método partial_fit permitiéndole de datos en actualizaciones incrementales.
Estoy familiarizado con los algoritmos de clustering de flujos online-offline que utilizan micro clusters para resumir la información, procesando cada elemento del conjunto de datos una vez.
Ahora, con respecto a la cita, ¿cómo es que el partial_fit
¿es útil para los arroyos? O la "simulación de arroyos" con datos de series temporales, al menos. Me pareció después de leer este ejemplo que todo el procedimiento de MiniBatchKMeans de selección de lotes aleatorios en diferentes iteraciones se realiza cada vez que se llama a partial_fit
Y no lo entiendo:
-
cómo se hace el etiquetado final; es decir, cómo se puede obtener la etiqueta final de cada elemento, habiendo llamado
partial_fit
con muchos subconjuntos de elementos? Para mí, sólo se pueden obtener los centroides finales al final, haciendombk.cluster_centers_
. -
¿qué utilidad tiene para los arroyos? IMHO creo que cada elemento puede ser procesado más de una vez, si se toma aleatoriamente para ser parte de un lote en más de una iteración para un determinado
partial_fit
llamar.
Se agradecería cualquier ayuda. Gracias de antemano :)