Matriz $X=[x_1,...,x_i,...,x_N]$ es un conjunto de datos que contiene $N$ puntos de datos que cada punto de datos $x_i$ es un vector de $D$ dimensiones. Cada dimensión es una característica. El número de clusters ( $K$ ) es desconocido. No hay datos de entrenamiento, por lo que todos los puntos de datos están sin etiquetar.
Se supone que cada conglomerado tiene una distribución gaussiana con parámetros media y sigma: [ m , sigma ] que m \= $[m_1,...,m_D]$ . No hay información sobre los parámetros (media y sigma) de cada cluster. El espacio de características de un clúster se modela como una gaussiana multivariable ( $D$ dimensión) y el espacio total de características es un modelo de mezcla gaussiana para un número desconocido de componentes de la mezcla ( $K$ ).
He estudiado un método de agrupación basado en modelos que se ha utilizado para dicho problema. Se trata de una clasificación bayesiana no paramétrica (modelo de mezcla infinita). Dado que el número de componentes de la mezcla es desconocido, se ha utilizado el prior no paramétrico basado en el proceso de Dirichlet (DP) y el proceso de restaurante chino (CRP) para el muestreo de un DP y el muestreo de Gibbs colapsado para el modelo de mezcla DP, referencia 1 .
-
¿qué otros métodos de agrupación (clasificación no supervisada) puedo probar para este problema?
-
En el DPMM (modelo de mezcla de procesos de Dirichlet), se supone que cada componente de la mezcla es gaussiano. ¿Se puede utilizar una distribución no gaussiana para los componentes de la mezcla?
-
En el muestreo de Gibbs colapsado, el número de iteraciones para la convergencia del algoritmo se supone fijo. ¿Es posible que el número de iteraciones sea adaptativo y dependa de los datos y del número de componentes?
Hice la pregunta 1 de forma general. Sé que hay muchas soluciones para un mismo problema. Pero busco ¿qué métodos hay que sean comparables a DPMM? Las preguntas 2 y 3 son en detalle sobre DPMM.
Acabo de estudiar sobre el muestreo de Gibbs y el muestreo de Gibbs colapsado. Quiero saber sobre otros métodos.