Estoy ajustando un Modelo de Mezcla Gaussiana a datos de alta dimensión (40 dimensiones).
He entrenado el modelo mediante EM, he aprendido los parámetros y ahora quiero saberlo cuantitativamente:
¿Qué es más importante para captar la estructura de los datos, las medias o las matrices de covarianza?
Actualmente, se me ocurre medir la distancia euclidiana entre diferentes medias o el coseno de los vectores propios principales de las diferentes matrices de covarianza para medir si la dirección de la variabilidad que capta cada matriz de covarianza es similar o diferente al resto.
¿Alguna idea?
2 votos
Ambos son importantes. No puedo entender lo que quieres preguntar.
0 votos
¿Ha estudiado el análisis de componentes principales?
0 votos
¿Cómo decidiste el número de distribuciones normales en la mezcla?
0 votos
He utilizado el Criterio de Información Bayesiano. Por ejemplo, imaginemos un modelo de mezcla en el que todas las mezclas están centradas en un punto específico pero están todas alineadas en diferentes direcciones, en este caso las medias no son tan útiles como las matrices de covarianza para capturar la estructura de los datos.
0 votos
Me enfrento a un problema muy similar, ¿podría decirme/señalar una fuente de cómo utilizó el Criterio de Información Bayesiano para decidir el número de gaussianas en la mezcla?