Miré rápidamente el enlace y no vi la explicación más directa, pero tal vez lo revisé demasiado rápido. Expandir "$P(B)$" de esta manera utiliza la ley de la probabilidad total. La idea es que si tenemos una partición del espacio muestral, podemos encontrar $P(B)$ sumando las partes de probabilidad de $B$ encontradas en cada una de las particiones. Una partición significa simplemente que hemos dividido el espacio muestral de tal manera que cada punto se puede encontrar en exactamente una de las particiones o agrupaciones.
En tu caso, se asume que cada observación está en exactamente una de las $K$ clases, es decir, las clases son tu partición. Dicen que hay una variable aleatoria discreta $Y$ que representa la pertenencia a la clase $k$-ésima. El evento de que una observación pertenezca a la clase k-ésima es simplemente $\{Y=k\}$.
La ley de la probabilidad total se puede mostrar de la siguiente manera para $B \subseteq \Omega$ arbitrario, donde $\Omega$ es el espacio muestral. (o más formalmente $B \in \mathcal{F}$, donde $\mathcal{F}$ es la sigma álgebra apropiada).
\begin{align*} P(B) &= P(B \cap \Omega)\\ &= P(B \cap (\cup_{i=1}^K\{Y =i\}))\\ &= \sum_{i=1}^KP(B\cap \{Y =i\})\\ &= \sum_{i=1}^K P(B|\{Y =i\})P(\{Y =i\})\\ \end{align*}
La tercera línea sigue porque los eventos son disyuntos (no hay solape entre las clases) y la última línea sigue de la regla multiplicativa de la probabilidad.
Observa que $P(Y = i)$ es simplemente el peso $\pi_i$ para la clase i. De manera similar, en tu texto ellos notan $P(X=x|Y=k) = f_k(x)$ para ser la probabilidad de $X=x$ dada que está en la clase K si $X$ es discreto o la densidad de probabilidad de $X$ dada la pertenencia a la clase K si es continua. (No se muestra, pero la ley de la probabilidad total se puede extender al caso continuo cuando se trabaja con densidades).
Ahora, ¿por qué hacemos esto? La respuesta es porque es más fácil en la configuración dada por el problema. El modelo de clasificador asume una densidad para cada clase $f_i(x)$, pero no una densidad para las observaciones en general, $f(X=x)$. Entonces, para descubrir la densidad $f(X=x)$ es mucho más fácil dividir esto en las densidades del clasificador y la ley de la probabilidad total nos da una forma de hacerlo, simplemente sumando las densidades del clasificador ponderadas por la probabilidad de que ocurran. Esta técnica es tan útil y común que en muchos textos elementales de probabilidad la regla de Bayes se expresa directamente en la forma de partición (usualmente para la partición en el evento $A$ y su complemento, $A^c$).