Tenemos dos publicaciones en este dominio, pero no estoy totalmente convencido de que en los enfoques. Pero usted debe tener una mirada.
En la publicación de abajo, hemos explorado una disposición circular para visualizar la superposición de los clusters. Puede hacer clic en los segmentos a ver colores en un diagrama de dispersión (pero, por supuesto, diagramas de dispersión no escala de datos de alta dimensión).
Esto permite ver cómo los clusters relacionados unos con otros.
La disposición circular es beneficioso, debido a que la complejidad de la visualización es mayor en el círculo exterior, donde tenemos más espacio. Un "lineal" de la pantalla es menos legible. El tamaño de los segmentos se basa en pares como muchos de la evaluación de los índices (por ejemplo ARI). En la imagen de arriba, el rojo y el amarillo, los clusters son un clúster en el área exterior, que hace que pares adicionales (el segmento inferior, que no existe en el círculo interior - porque estos son dos pares no, no "par"). La comprensión de cómo los "pares" el trabajo es muy poco intuitivo, lo siento.
Este enfoque se puede utilizar más de dos conglomerados, pero por lo general en tres conglomerados que ya se vuelve bastante incomprensible.
E. Achtert, S. Goldhofer, H.-P. Kriegel, E. Schubert, A. Zimek
Evaluación de Conglomerados – Métricas y Apoyo Visual
En Actas de la 28 Conferencia Internacional sobre Ingeniería de Datos (ICDE), Washington, DC: 1285-1288, 2012.
El código de ELKI se espera que el trabajo, pero no he comprobado esto en muuuucho tiempo.
La segunda referencia que puedo sugerir es este:
E. Schubert, A. Koos, T. Emrich, A. Züfle, K. A. Schmid, A. Zimek
Un Marco para la Agrupación de Datos Inciertos
Actas de la VLDB Dotación, 8(12): 1976-1979, 2015.
Mientras este se titula "la Agrupación de Datos Inciertos", que está muy ligado a la alternativa de la agrupación. Porque incierto datos pueden ser agrupados por buscando alternativas obtenidos al tomar la "certeza" de las muestras de la incertidumbre de los datos y, a continuación, ejecuta una tradicional algoritmo de clustering.
El tau valor muestra la similitud de los conglomerados en cada clúster. La confianza de probabilidad es una estimación de cómo muchos de los resultados de la agrupación será similar a la representante. Los números no pueden agregar hasta 1 - en esta captura de pantalla, esperamos que el 7% de conglomerados a ser diferentes a partir de los ejemplos que mostramos aquí.
Con la incertidumbre de los datos, usted tiene que mirar en muchas de las muestras. Pero entonces usted tiene entre 50 y 100 (o muchas más) conglomerados. Por lo tanto, nos clúster de conglomerados basado en la similitud, para obtener algún representante de conglomerados entonces, el usuario puede explorar. De nuevo, esta funcionalidad está disponible en ELKI, pero es necesario establecer unos 30-40 parámetros para reproducir estos resultados (no existe un "estándar" en formato de datos inciertos, muchos de estos parámetros son para especificar la incertidumbre que se asocia con los puntos de datos).
Detalles sobre el representante conglomerados están aquí:
A. Züfle, T. Emrich, K. A. Schmid, N. Mamoulis, A. Zimek, M. Renz
Representante de la Agrupación de Datos Inciertos
En Actas del 20 de ACM Conferencia Internacional sobre el Descubrimiento de Conocimiento y Minería de Datos (SIGKDD), Nueva York, NY: 243-252, 2014.