Se puede reescribir la prior como una hiper prior gaussiana: $$ p(\mu|i) = \mathrm{N}(i,1), \text{where } i \in \{0,1\} $$ y establecer una prioridad para $i$ , digamos $$ p_0(i) = \begin{cases}a, & i=0, \\ b, & i=1. \end{cases} $$ En primer lugar, se podría ignorar el prior en $i$ y calcular la medida posterior parametrizada analíticamente en $i$ . En este caso, sólo tendríamos una probabilidad gaussiana a priori y una probabilidad gaussiana, por lo que podemos calcular la probabilidad posterior $$ p(\mu|x,i) = \frac{p(x|\mu)p(\mu|i)}{p(x|i)} \propto p(x|\mu)p(\mu|i) $$ analíticamente mediante la fórmula de Bayes (y la chuleta Entrada de Wikipedia sobre priores conjugados ).
Tenga en cuenta que $p(\mu|x,i)$ sigue siendo gaussiano. Para llegar a la posterior real $p(\mu|x)$ queremos deshacernos del $I$ . Para ello se utiliza la siguiente fórmula: $$ p(\mu|x) = \sum_{i=0}^1 p(i|x)\cdot p(\mu|x,i), \tag 1 $$ donde $$ p(i|x) = \frac{p_0(i)\cdot p(x|i)}{\sum_{j=0}^1 p_0(j)\cdot p(x|j)}. $$ es la medida posterior sobre $i$ dados los datos $x$ .
En cualquier caso, la posterior $p(\mu|x)$ será de nuevo una mezcla gaussiana con dos componentes. Esto se puede ver en la ecuación (1): Ahí tenemos una combinación convexa de dos medidas gaussianas.
La cuestión de la regularización es algo más delicada. Se obtiene un $L^2$ regularización en el caso del prior gaussiano, ya que el log-prior negativo es un $L^2$ -norm. Aquí, tenemos el regularizador $R(\mu)$ dado por $$ R(\mu) = -\log(p(\mu)) = -\log\left(a \frac{1}{\sqrt{2\pi}} \exp(-\frac12\|\mu\|^2) + b \frac{1}{\sqrt{2\pi}} \exp(-\frac12\|\mu-1\|^2)\right). $$ En realidad, no veo la manera de simplificar este término. Es definitivamente algo no estándar para hacer como una regularización.