Estoy corriendo una rápida simulación para comparar diferentes métodos de agrupamiento, y en la actualidad algún problema tratando de evaluar las soluciones de clúster.
Sé de varios de validación de métricas (muchos se encuentran en el clúster.estadísticas() en R), pero supongo que esos son los más utilizados, si se estima que el número de clusters en realidad es igual que el número real de los clusters. Quiero mantener la capacidad de medir qué tan bien una solución de agrupación en clústeres realiza cuando no se especifique el número correcto de grupos en el original de la simulación (es decir, ¿qué tan bien un racimo de tres de la solución del modelo de datos de la que se simula un 4-solución de clúster). Sólo para su información, los clusters son simuladas para poseer idéntica matrices de covarianza.
Pensé KL divergencia entre los dos mezclas de Gaussianas sería de utilidad para la aplicación, pero no la forma cerrada de la solución existe (Hershey y Olson (2007)y la implementación de una simulación de Monte Carlo está empezando a ser computacionalmente costoso.
Hay otras soluciones que podrían ser fácil de implementar (incluso si sólo una aproximación)?