Dejemos que $\mathcal{Y} = (\mathbf{y}_1, \dots, \mathbf{y}_N)$ sean datos observados, de manera que cada $\mathbf{y}_i \in \mathbb{R}^2$ . Ahora condicionado a no observado centros de agrupación (medios) $\mathcal{X} = (\mathbf{x}_1, \dots, \mathbf{x}_K)$ , donde $K >>0, K \in [1,\infty)$ también es desconocido, tenemos
$$L(\mathcal{Y}|\mathcal{X}, \mathcal{C}, \Sigma,K) = \prod_{i =1}^N \prod_{j=1}^K [\mathcal{N}_2(\mathbf{y}_i;\mathbf{x}_j,\Sigma)]^{\mathcal{C}_{ij}},$$ donde $\Sigma$ es una matriz de covarianza conocida y $\mathcal{C}_{ij} = 1$ si la observación $i$ pertenece a la agrupación $j$ y es cero en caso contrario.
Ahora, denotemos el número de observaciones por cluster como $S_1, \dots S_K$ . Tenemos que $S_j = \sum_{i =1}^{N} \mathcal{C}_{ij}$ para cada $j = 1, \dots, K.$ El distribución de cada $S_j$ sigue $S_j \sim p(S)$ de forma independiente e idéntica, y aunque no es multinomial, se conoce.
Me gustaría inferir $K$ y $\mathcal{X}$ dada la configuración anterior. Dado que $K$ en esta aplicación es típicamente bastante grande (y puede ser infinito), esperaba utilizar algo de teoría en no paramétrica bayesiana, específicamente de modelos de mezcla Dirichlet. Sin embargo, como no tengo un modelo de mezcla gaussiano típico, no estoy seguro de cómo configurar esto.
Cualquier ayuda o indicación de documentos específicos que describan la teoría que necesito será muy apreciada. Gracias.