1 votos

¿Cómo es que el método Mini Batch K means partial_fit puede ser útil para la agrupación de flujos?

Actualmente, estoy estudiando el avance en el análisis de conglomerados en relación con agrupación de flujos . Terminé evaluando El mini lote K significa por algunos comentarios que he leído en Internet, como el siguiente:

Muchos algoritmos de agrupación puede ser ajustado para que sea adecuado para la agrupación de flujos . No conozco muchas implementaciones en scikit-learn que lo hagan fuera de la caja, aparte de MiniBatchKMeans y Birch, que tienen un método partial_fit permitiéndole de datos en actualizaciones incrementales.

Estoy familiarizado con los algoritmos de clustering de flujos online-offline que utilizan micro clusters para resumir la información, procesando cada elemento del conjunto de datos una vez.

Ahora, con respecto a la cita, ¿cómo es que el partial_fit ¿es útil para los arroyos? O la "simulación de arroyos" con datos de series temporales, al menos. Me pareció después de leer este ejemplo que todo el procedimiento de MiniBatchKMeans de selección de lotes aleatorios en diferentes iteraciones se realiza cada vez que se llama a partial_fit Y no lo entiendo:

  • cómo se hace el etiquetado final; es decir, cómo se puede obtener la etiqueta final de cada elemento, habiendo llamado partial_fit con muchos subconjuntos de elementos? Para mí, sólo se pueden obtener los centroides finales al final, haciendo mbk.cluster_centers_ .

  • ¿qué utilidad tiene para los arroyos? IMHO creo que cada elemento puede ser procesado más de una vez, si se toma aleatoriamente para ser parte de un lote en más de una iteración para un determinado partial_fit llamar.

Se agradecería cualquier ayuda. Gracias de antemano :)

2voto

Amadiere Puntos 5606

En la agrupación de flujos se supone que los centros de agrupación se mueven con el tiempo.

No te interesa mucho la ubicación "final" (porque el flujo nunca termina), sino sólo su actual lugares.

Si utiliza Mini Batch K-Means en un flujo, deberá introducir cada lote de puntos del flujo en Mini Batch K-Means una vez como si fuera una nueva muestra aleatoria. No se procesan repetidamente los datos, sino que se asume que el flujo tenía suficientes muestras para proporcionar redundancia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X