7 votos

Buena visualización (2d) de un agrupamiento de modelo de mezcla

Tengo un problema específico que me sorprende que no encuentra respuestas en línea y espero que alguien de aquí tiene una buena sugerencia para mí. Estoy trabajando con un gran conjunto de datos que estoy agrupamiento en grupos específicos el uso personalizado de clúster de densidades. Por lo que el espacio original es bastante heterogéneo y tiene un gran número de función. Durante y después de la optimización de modelo, la responsabilidad de vectores de cada punto de datos es la proyección de las características originales en k dimensiones (k = número de grupos). Cada uno de estos vectores también sumas a uno, lo que hace de ellas un (discreta) de la distribución en el espacio de los clusters. El uso de estos soft asignaciones, siempre se puede crear un mapa de calor de la visualización de la correspondiente matriz de confusión (cuando tengo categórica etiquetas). Normalmente, estas asignaciones son muy fuerte, lo que significa que muchos de los vectores de la forma (0,0,1,0,0...)

Ahora, me gustaría ver un (2d) representación de los puntos agrupados por la información en la matriz de responsabilidad. De esta manera, pude observar cada paso en el procedimiento de optimización sin saber etiquetas reales. Mis primeros pensamientos fueron PCA, MDS y el gráfico de diseño de algoritmos. Sin embargo, aunque el "mapa de calor" sugiere una clara agrupación, el PCA tiene un aspecto bastante densa, con puntos alineados en las líneas. Como MDS y gráficos de uso distancias, pensé en el cálculo de pares Hellinger o de la tierra de la empresa de mudanzas distancias entre la responsabilidad de los vectores de aplicar cualquiera de los MDS o el gráfico, diseño de algoritmos. Sin embargo, MDS no fue un éxito hasta el momento.

Nadie ha hecho algo como esto antes? Idealmente, me gustaría ver una animación del procedimiento de agrupamiento como puntos de datos están agrupados.

Gracias por tu aporte.

1voto

AusTravel Puntos 6

Intente la visualización de métodos, tales como la superficie de las parcelas y otras técnicas de alta dimensión de visualización de datos, descrito en el documento "mclust la Versión 4 de R: Mezcla Normal de Modelado para el Modelo Basado en la Agrupación, Clasificación y Estimación de Densidad" por Chris Fraley, Adrian E. Raftery, T. Brendan Murphy y Luca Scrucca (http://www.stat.washington.edu/research/reports/2012/tr597.pdf). Específicamente, consulte la sección 8 (pp 35-43) y la representación de funciones de resumen en la página. 52.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X