6 votos

Diferencias entre las unidades

¿Alguien sabe de una buena forma de visualizar las diferencias entre las alternativas conglomerados?

Sé que hay algunas medidas que pueden ser utilizados para cuantificar la similitud entre dos partitionings, por ejemplo:

Cada uno de estos puede proporcionarme un único número en el rango de 0 a 1 o así (aunque hay valores negativos con el más tarde, dos métodos).

Esto es útil, pero no ayuda a construir una intuición acerca de cómo los conglomerados difieren el uno del otro, por ejemplo, son los dos conglomerados de la agrupación de elementos completamente diferente? O son sólo de dividir las cosas en la diferencia de escalas?

Para los pequeños de la agrupación jerárquica de las comparaciones, hay un paquete de R dendextend que puede ser utilizado para comparar alternativas dendrograms.

Hay otros métodos que pueden ser utilizados que no son específicas a la agrupación jerárquica, y podría funcionar bien para los conjuntos de datos más grandes? (por ejemplo, 10.000 elementos).

5voto

Nandika Puntos 21

Tenemos dos publicaciones en este dominio, pero no estoy totalmente convencido de que en los enfoques. Pero usted debe tener una mirada.

En la publicación de abajo, hemos explorado una disposición circular para visualizar la superposición de los clusters. Puede hacer clic en los segmentos a ver colores en un diagrama de dispersión (pero, por supuesto, diagramas de dispersión no escala de datos de alta dimensión). Esto permite ver cómo los clusters relacionados unos con otros.

circular layout

La disposición circular es beneficioso, debido a que la complejidad de la visualización es mayor en el círculo exterior, donde tenemos más espacio. Un "lineal" de la pantalla es menos legible. El tamaño de los segmentos se basa en pares como muchos de la evaluación de los índices (por ejemplo ARI). En la imagen de arriba, el rojo y el amarillo, los clusters son un clúster en el área exterior, que hace que pares adicionales (el segmento inferior, que no existe en el círculo interior - porque estos son dos pares no, no "par"). La comprensión de cómo los "pares" el trabajo es muy poco intuitivo, lo siento. Este enfoque se puede utilizar más de dos conglomerados, pero por lo general en tres conglomerados que ya se vuelve bastante incomprensible.

E. Achtert, S. Goldhofer, H.-P. Kriegel, E. Schubert, A. Zimek
Evaluación de Conglomerados – Métricas y Apoyo Visual
En Actas de la 28 Conferencia Internacional sobre Ingeniería de Datos (ICDE), Washington, DC: 1285-1288, 2012.

El código de ELKI se espera que el trabajo, pero no he comprobado esto en muuuucho tiempo.

La segunda referencia que puedo sugerir es este:

E. Schubert, A. Koos, T. Emrich, A. Züfle, K. A. Schmid, A. Zimek
Un Marco para la Agrupación de Datos Inciertos
Actas de la VLDB Dotación, 8(12): 1976-1979, 2015.

Mientras este se titula "la Agrupación de Datos Inciertos", que está muy ligado a la alternativa de la agrupación. Porque incierto datos pueden ser agrupados por buscando alternativas obtenidos al tomar la "certeza" de las muestras de la incertidumbre de los datos y, a continuación, ejecuta una tradicional algoritmo de clustering.

Representative clusterings

El tau valor muestra la similitud de los conglomerados en cada clúster. La confianza de probabilidad es una estimación de cómo muchos de los resultados de la agrupación será similar a la representante. Los números no pueden agregar hasta 1 - en esta captura de pantalla, esperamos que el 7% de conglomerados a ser diferentes a partir de los ejemplos que mostramos aquí.

Con la incertidumbre de los datos, usted tiene que mirar en muchas de las muestras. Pero entonces usted tiene entre 50 y 100 (o muchas más) conglomerados. Por lo tanto, nos clúster de conglomerados basado en la similitud, para obtener algún representante de conglomerados entonces, el usuario puede explorar. De nuevo, esta funcionalidad está disponible en ELKI, pero es necesario establecer unos 30-40 parámetros para reproducir estos resultados (no existe un "estándar" en formato de datos inciertos, muchos de estos parámetros son para especificar la incertidumbre que se asocia con los puntos de datos).

Detalles sobre el representante conglomerados están aquí:

A. Züfle, T. Emrich, K. A. Schmid, N. Mamoulis, A. Zimek, M. Renz
Representante de la Agrupación de Datos Inciertos
En Actas del 20 de ACM Conferencia Internacional sobre el Descubrimiento de Conocimiento y Minería de Datos (SIGKDD), Nueva York, NY: 243-252, 2014.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X