15 votos

Distancia entre dos mezclas Gaussian para evaluar soluciones de cluster

Estoy corriendo una rápida simulación para comparar diferentes métodos de agrupamiento, y en la actualidad algún problema tratando de evaluar las soluciones de clúster.

Sé de varios de validación de métricas (muchos se encuentran en el clúster.estadísticas() en R), pero supongo que esos son los más utilizados, si se estima que el número de clusters en realidad es igual que el número real de los clusters. Quiero mantener la capacidad de medir qué tan bien una solución de agrupación en clústeres realiza cuando no se especifique el número correcto de grupos en el original de la simulación (es decir, ¿qué tan bien un racimo de tres de la solución del modelo de datos de la que se simula un 4-solución de clúster). Sólo para su información, los clusters son simuladas para poseer idéntica matrices de covarianza.

Pensé KL divergencia entre los dos mezclas de Gaussianas sería de utilidad para la aplicación, pero no la forma cerrada de la solución existe (Hershey y Olson (2007)y la implementación de una simulación de Monte Carlo está empezando a ser computacionalmente costoso.

Hay otras soluciones que podrían ser fácil de implementar (incluso si sólo una aproximación)?

0voto

Amadiere Puntos 5606

Si los clústeres son realmente no gaussiano mezclas pero arbitrariamente en forma, los resultados pueden ser mucho mejor cuando se producen racimos mucho más, luego tomar algunas otra vez luego.

En muchos casos, simplemente se elige k ser arbitrariamente alta, por ejemplo, 1000 para un conjunto grande de datos; en particular cuando usted no está realmente interesado en los modelos, pero sólo quieren reducir la complejidad de los datos vía quantization del vector.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X