Estoy tomando un curso sobre Inferencia de Máxima Entropía (MEI), donde se discutió su aplicación a k-Means. Estoy confundido acerca de la configuración del problema.
Por lo que entiendo, nuestro objetivo es encontrar soluciones de agrupación $c(\cdot)$ con un pequeño coste previsto $\mathbb{E}[R^{km}(c)] \le R_{max}$ . Por lo tanto, estamos interesados en el muestreo de una distribución $p^*(c)$ sobre estas soluciones, donde las buenas soluciones tienen una alta probabilidad y las malas, una baja. Para ser lo más "agnósticos" posible, pedimos la distribución que maximiza la entropía, y así obtenemos:
$$ p^*(c) = \arg \max_{p(c)} {H(c)} \quad \text{ s.t. } \mathbb{E}_p[R^{km}(c)] \le R_{max} $$
Obviamente, $c(\cdot)$ son variables aleatorias en este escenario. Pero, ¿cuál es el espacio de probabilidad subyacente? Si $p^*(c')$ es grande, indica que $c$ es una buena solución de agrupación, pero... ¿para qué problema? Es para un conjunto de datos específico $\mathcal{X}$ o para una gran variedad de conjuntos de datos de este tipo? En cualquiera de los casos, ¿en qué parte de las ecuaciones anteriores intervienen estos conjuntos de datos?
EDITAR: Espero no ser demasiado impreciso. Por desgracia, no puedo expresarme con mucha claridad porque no entiendo muy bien el tema. Sin embargo, tal vez pueda responder a preguntas concretas de forma menos ambigua.