5 votos

Métodos de clustering para un número desconocido de clusters

Matriz $X=[x_1,...,x_i,...,x_N]$ es un conjunto de datos que contiene $N$ puntos de datos que cada punto de datos $x_i$ es un vector de $D$ dimensiones. Cada dimensión es una característica. El número de clusters ( $K$ ) es desconocido. No hay datos de entrenamiento, por lo que todos los puntos de datos están sin etiquetar.

Se supone que cada conglomerado tiene una distribución gaussiana con parámetros media y sigma: [ m , sigma ] que m \= $[m_1,...,m_D]$ . No hay información sobre los parámetros (media y sigma) de cada cluster. El espacio de características de un clúster se modela como una gaussiana multivariable ( $D$ dimensión) y el espacio total de características es un modelo de mezcla gaussiana para un número desconocido de componentes de la mezcla ( $K$ ).

He estudiado un método de agrupación basado en modelos que se ha utilizado para dicho problema. Se trata de una clasificación bayesiana no paramétrica (modelo de mezcla infinita). Dado que el número de componentes de la mezcla es desconocido, se ha utilizado el prior no paramétrico basado en el proceso de Dirichlet (DP) y el proceso de restaurante chino (CRP) para el muestreo de un DP y el muestreo de Gibbs colapsado para el modelo de mezcla DP, referencia 1 .

  1. ¿qué otros métodos de agrupación (clasificación no supervisada) puedo probar para este problema?

  2. En el DPMM (modelo de mezcla de procesos de Dirichlet), se supone que cada componente de la mezcla es gaussiano. ¿Se puede utilizar una distribución no gaussiana para los componentes de la mezcla?

  3. En el muestreo de Gibbs colapsado, el número de iteraciones para la convergencia del algoritmo se supone fijo. ¿Es posible que el número de iteraciones sea adaptativo y dependa de los datos y del número de componentes?

Hice la pregunta 1 de forma general. Sé que hay muchas soluciones para un mismo problema. Pero busco ¿qué métodos hay que sean comparables a DPMM? Las preguntas 2 y 3 son en detalle sobre DPMM.

Acabo de estudiar sobre el muestreo de Gibbs y el muestreo de Gibbs colapsado. Quiero saber sobre otros métodos.

Identificación de ataques de emulación de usuarios primarios en sistemas de radio cognitiva mediante clasificación bayesiana no paramétrica

3voto

RSXAdmin Puntos 92
  1. ¿qué otros métodos de clustering (clasificación no supervisada) puedo probar para este problema?

Por ejemplo, los paramétricos: se puede ajustar un Modelo de Mezcla Gaussiana por Maximización de Expectativas o Inferencia de Bayes Variacional; se prueban diferentes números de conglomerados y se selecciona el modelo que mejor se ajusta a los datos. Tenga cuidado, selección del modelo no es lo mismo para un método no bayesiano (como EM), donde se tiene una estimación puntual de la agrupación, que para un método bayesiano como VB donde se tiene una distribución posterior completa.

  1. En el DPMM (modelo de mezcla de procesos de Dirichlet), se supone que cada componente de la mezcla es gaussiano. ¿Se puede utilizar una distribución no gaussiana? para los componentes de la mezcla?

Las priores de las variables de un GMM simple son: \begin{align*} x_i | z_i, \theta_{z_i} &\sim F(\theta_{z_i})\\ \theta_j &\sim G_0\\ z_i &\sim \text{Discrete}(\boldsymbol{\pi})\\ \pi &\sim \text{Dirichlet}(\boldsymbol{\alpha}) \end{align*}

donde $F$ es una distribución Normal y $\pi$ tiene una longitud $k$ . La versión colapsada viene después de integrar $\pi$ . El Proceso Dirichlet / Proceso del Restaurante Chino llega de forma natural cuando se calcula el límite $k \rightarrow \infty$ .

Puede sustituir la probabilidad $F$ por la función que quiera y obtendrá una mezcla de Bernoullis, una mezcla de Poissons, una mezcla de...

3.a. En el muestreo de Gibbs colapsado, el número de iteraciones para la convergencia del algoritmo se supone fijo.

¡No, en absoluto!. ¿Por qué habría de hacerlo? El muestreo de Gibbs, y en general cualquier método MCMC, necesita algún muestreo de rodaje hasta que su cadena de Markov llegue a la distribución estacionaria (la distribución posterior que está buscando). Una vez que se llega a ella, se sigue muestreando a partir de la distribución posterior hasta que se esté satisfecho. Pero no es posible saber a priori cuántas iteraciones se necesitan para llegar a la distribución estacionaria. En realidad, incluso a posteriori examinando tu cadena de muestras (aka trazas), hay pruebas de convergencia pero nunca se sabe con seguridad .

3.b. ¿Es posible que el número de iteraciones sea adaptativo dependiendo de los datos y del número de componentes?

Por lo tanto, en cuanto a las técnicas adaptativas, puede probar periódicamente si su(s) cadena(s) (una por cada variable muestreada) converge(n), e incluso detener el muestreo si la prueba da resultados positivos. Pero podría ser un falso positivo. Y aún así, podría tener que comprobar otras cosas como la autocorrelación (para decidir la adelgazamiento ).

Normalmente, cuantas más variables tenga (y más componentes también significan más variables), más tiempo tardará el muestreador de Gibbs en converger, pero no hay una fórmula matemática para ello.

1voto

jws121295 Puntos 36

Si yo estuviera haciendo esto, entonces utilizaría modelos de mezcla gaussiana inicializados por k-means con AIC para indicar el rendimiento del modelo.

Si me preocupara que un gran número de elementos ahogara mi capacidad de cálculo, entonces podría hacer sólo unos pocos pasos de EM en los miembros asignados de cada elemento k, antes de calcular el AIC. Podría necesitar hacer CV u omitir uno para verificar que no cometí un grave error sin gastar demasiado tiempo de cálculo.

Podría aplicar un método kernel con un ancho de banda informado por la varianza típica de los clusters.

Estoy seguro de que esta respuesta no satisface la mayoría de sus necesidades, pero usted preguntaba por enfoques alternativos pero relacionados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X